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本 书 以 


内 容 简 介 
EMBA 班 的 “数据 挖掘 技术 及 其 应 用 ”教学 为 场景 ， 带 领 读者 步 入 数据 挖掘 的 神秘 砍 


堂 ， 领 略 数据 挖掘 的 神奇 魅力 。 全 书 分 为 9 章 : 第 1 章 从 三 个 真实 故事 开始 数据 挖掘 之 旅 ; 第 2 章 
以 某 企 业 生产 中 遇 到 的 质量 控制 难题 的 解决 过 程 为 线索 ， 展 现 数据 挖掘 的 实施 过 程 ， 第 3 章 到 第 9 
章 以 典型 案例 的 形式 分 别 介绍 了 数据 挖掘 技术 在 电力 行业 、 交 通航 空 领域 、 冶 金 行业 、 税 务 与 金融 
行业 、 电 信行 业 、 故 障 诊断 以 及 互联 网 行业 的 应 用 。 

数据 挖掘 是 一 种 专业 性 极 强 的 技术 ， 本 书 避 开 大 量 腹 涩 的 概念 和 令 人 生 晨 的 数学 公式 ， 以 师 生 


互动 讨论 的 


lS 式 让 读者 走 进 数据 挖掘 殿堂 ， 进 而 深入 浅 出 、 循 序 渐进 地 感知 数据 挖 气 。 随 着 阅读 ， 


读者 会 自然 而 然 地 身 临 课堂 ,“ 让 数据 说 话 ， 从 数据 中 发 现 规律 ， 科 学 决策 ”等 新 的 理念 会 使 读者 
对 实际 工作 中 面临 的 复杂 问题 浮想 联翩 、 另 辟 新 径 。 
本 书 适合 企 事业 部 门 的 领导 、 管 理 人 员 、 生 产 一 线 的 技术 人 员 ， 另 外 ， 学 生 或 者 行业 工作 者 ， 


可 以 通过 本 


此 的 阅读 ， 为 以 后 的 学 习 黄 定好 基础 。 
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本 书 的 萌发 


上 世纪 80 年 代 末 到 90 年 代 初 ,国内 外 广泛 流传 着 一 句 耐 人 寻味 的 话语 : 我 们 沉 
浸 在 数据 的 海洋 中 , 却 渴望 着 知识 的 淡水 。 这 人 句 话 生动 地 描绘 了 当时 人 们 面 对 海 量 数 
据 的 迷 侦 和 无 奈 。 就 在 这 时 ， 世 界 商业 巨头 沃尔玛 从 其 庞大 的 交易 数据 库 中 演绎 了 一 
场 “ 啤 酒 和 尿布 的 故事 ”, 揭示 了 一 条 隐藏 在 海量 数据 中 的 、 美 国人 的 一 种 行为 规律 : 
年 龄 在 25 一 35 岁 的 年 轻 父亲 下 班 后 经 常 要 到 超市 去 给 婴儿 买 尿布 ,而 他 们 中 有 30% 一 
40% 的 人 顺手 为 自己 买 几 瓶 啤酒 。 受 这 条 简单 的 客户 行为 模式 的 启发 ， 沃 尔 玛 调整 了 
商品 布局 ， 并 策划 了 促销 价格 ， 结 果 销 售 量 大 增 。 这 一 现象 引起 了 科学 界 的 注意 ， 他 
们 将 “啤酒 和 尿布 的 故事 "引申 为 “关联 规则 获取 ”， 进 而 将 “从 大 量 的 、 不 完全 的 、 有 
噪声 的 、 模 糊 的 、 随 机 的 数据 中 ， 提 取 隐 含 在 其 中 的 、 人 们 事先 不 知道 的 、 但 又 潜在 
有 用 的 信息 和 知识 的 过 程 ” 定 义 为 “数据 挖掘 ”。 


需求 是 成 功 之 源 ， 于 是 西方 发 达 国 家 刮 起 了 一 场 数据 挖掘 的 风暴 。 商 业界 发 现 了 
沃尔玛 迅 狐 发 展 的 秘诀 ， 纷 纷 效 仿 。 电 信行 业 也 沸腾 了 ， 各 公司 纷纷 争先 丽 后 地 利用 
数据 挖 据 这 一 锐利 武器 解决 他 们 面临 的 最 紧迫 的 问题 (如 客户 分 群 、 客 户 会 流失 原因 
及 预测 、 业 务 套 餐 及 响应 、 关 联 消费 等 ) 。 工 业界 也 行动 了 ， 他 们 从 堆积 如 山 的 数据 
中 ， 挖 握 出 指导 生产 和 管理 的 决策 规则 。 


上 世纪 90 年 代 中 期 以 后 ， 基 于 数理 统计 、 人 工 智能 、 机 器 学 习 、 人 工 神经 网 络 
等 多 种 技术 的 数据 挖掘 技术 已 经 成 为 研究 和 应 用 的 热点 , 数据 挖掘 在 我 国 也 开始 推广 
应 用 。 然 而 , 从 这 么 多 年 的 情况 来 看 , 我 国 数据 挖掘 的 应 用 与 发 达 国家 还 有 很 大 差距 。 
我 们 仅 在 互联 网 、 金 融 、 电信 和 商业 等 领域 有 一 些 成 功 的 应 用 , 而 在 其 他 行业 如 制造 、 
航空 、 医 药 、 军 工 、 化 工 、 税 务 、 反 改 和 刑侦 等 只 有 少量 的 尝试 。 为 什么 会 这 样 呢 ? 
IT 界 、 企 业界 和 学 术 界 的 有 识 之 士 无 不 在 思考 着 这 样 的 问题 。 进 行 数据 挖掘 ， 数 据 是 
基础 ， 难 道 是 我 国 的 信息 化 建设 还 未 达到 一 定 的 程度 ， 数 据 积累 不 够 ? 

进入 21 世纪 前 可 以 这 么 说 ， 可 现在 ， 显 然 不 是 。 目前， 我 国 的 大 中 型 企业 ， 大 


多 建立 了 先进 的 信息 化 系统 , 甚至 相当 多 的 企业 构建 了 数据 仓库 , 而 且 数 据 日 复 一 日 、 
爆炸 式 地 增长 ， 可 谓 堆积 如 山 。 然 而 ， 很 多 企业 对 数据 挖掘 的 认识 还 不 全 面 ， 甚 至 感 


觉 其 神秘 不 可 信 ， 这 样 的 话 ， 生 产 管理 中 遇 到 了 不 能 解决 的 问题 ， 自 然 不 会 用 数据 控 
掘 的 思想 思考 ,甚至 基层 部 门 提出 使 用 这 样 的 方法 ， 管 理 层 却 因 对 此 不 甚 了 解 而 无 力 
推动 。 

为 此 ,我 们 期 望 从 领导 层 和 生产 一 线 的 工作 人 员 普 及 数据 挖掘 知识 开始 , 唤起 人 
们 对 数据 新 的 认识 : 数据 是 客观 实际 的 反映 ， 它 体现 了 营销 规律 、 生 产 规律 、 经 营 规 
律 和 产品 质量 控制 规律 。 更 重要 的 是 ， 使 企业 管理 告别 基于 简单 统计 分 析 的 “报表 ” 决 
策 时 期 ， 跨 入 数据 挖掘 的 “知识 ”决策 时 代 。 


为 了 实现 这 一 目标 ， 人 迫切 地 需要 一 本 使 企业 管理 者 和 基层 工作 者 喜闻乐见 的 读 
物 。 然而 , 市 面 上 的 数据 挖掘 书籍 几乎 全 是 教科 书 形式 , 理论 性 太 强 , 满 篇 数学 公式 ， 
让 人 望而却步 ， 而 且 应 用 实例 甚 少 ， 让 人 难以 理解 。 在 这 种 情况 下 ， 我 们 大 胆 地 萌发 
出 一 种 案例 教学 法 编写 思路 ， 以 课堂 教学 为 线索 ,介绍 数 据 挖掘 的 基本 概念 和 应 用 过 
程 ， 让 读者 轻松 地 走 进 数据 挖掘 ， 领 略 数据 挖掘 的 神奇 魅力 。 


本 书 的 读者 群 
如 果 您 是 一 位 企业 或 政府 部 门 的 领导 ,您 可 以 利用 乘 飞机 的 闲暇 , 与 本 书 中 的 徐 


教授 和 各 行 各 业 的 精英 们 一 起 ， 走 进 数 据 挖掘 的 世界 ， 相 信 当 您 下 飞机 的 时 候 ， 一 定 
会 浮想 联 遍 ， 产 生 许多 新 的 思路 ; 


如 果 您 是 一 位 企业 管理 、 生 产 一 线 的 技术 人 员 ， 利 用 一 个 周末 的 休息 时 间 ， 通 过 
本 书 ， 您 会 对 数据 挖掘 有 初步 而 较为 系统 的 了 解 和 认识 ， 您 会 自觉 地 尝试 利用 数据 控 
掘 的 方法 解决 实际 问题 

如 果 您 是 一 位 想 系 统 学 习 数 据 挖掘 知识 的 学 生 或 科技 工作 者 , 亦 可 以 通过 本 书 的 
阅读 ， 为 以 后 的 学 习 竟 定好 基础 。 


本 书 的 内 容 


全 书 共 9 章 。 第 1 章 ， 揭 开 数 据 挖 掘 的 面纱 ， 从 三 个 真实 而 有 趣 的 故事 开始 ， 让 
读者 了 解数 据 挖 掘 的 概念 、 数 据 挖掘 产生 与 发 展 、 数 据 挖 掘 的 功能 和 数据 挖掘 技术 ， 
本 章 深 入 浅 出 地 介绍 了 关联 规则 、 聚 类 分 析 、 预 测 〈 分 类 和 回归 ) 、 时 间 序 列 等 数据 
挖掘 方法 及 常用 算法 , 第 2 章 简 述 数据 挖 所 流程， 以 某 冶 金 企业 生产 中 遇 到 的 质量 控 
制 技术 攻关 难题 的 解决 过 程 为 线索 , 活灵活现 地 展现 了 一 个 数据 挖掘 问题 的 项 目 立项 


玫 
冲 


及 其 实施 过 程 ; 第 3 章 到 第 9 章 以 典型 案例 的 形式 分 别 介绍 了 数据 挖掘 技术 在 电力 行 


业 、 交 通航 空 领域 、 治 金 行业 、 税 务 与 金融 行业 、 故 障 诊断 、 电 信行 业 、 互 联网 行业 
方面 的 应 用 。 
本 书 的 特色 

形式 新 颖 


本 书 以 EMBA 班 的 “数据 挖掘 技术 及 其 应 用 ”教学 为 场景 ， 通 过 教师 与 学 员 互 
动 共鸣 的 形式 ， 带 领 读 者 步 入 数据 挖掘 的 神秘 殿堂 ， 领 略 数据 挖掘 的 神奇 魅力 。 这 种 
写作 方式 ， 避 免 了 传统 教科 书 理论 性 太 强 ， 数 学 公式 繁多 ， 让 非 专业 数据 挖 所 者 望 而 
却步 的 缺陷 。 


案例 导读 

本 书 通过 数据 挖掘 的 典型 案例 , 引导 读者 领略 如 何 利用 数据 挖掘 技术 解决 各 行 各 
业 生 产 和 管理 中 的 实际 问题 。 按 弃 了 了 星 涩 难 懂 的 理论 ,在 解决 问题 的 过 程 中 了 解数 据 
挖 气 技 术 及 其 应 用 方法 ， 学 会 “让 数据 说 话 ， 以 数据 辅助 决策 ”的 新 理念 。 
创作 团队 

本 书 由 西安 交大 美 林 数 据 挖 气 研 究 中 心 策划 ， 靖 稳 峰 、 卢 漆 宗 等 编写 ， 程 宏 亮 为 
本 书 审定 了 章节 划分 并 精 选 了 案例 素材 ， 王 璐 为 本 书 审定 了 故事 构思 和 语言 风格 , 程 
宏 斌 、 李 炜 、 强 劲 和 黄蓉 等 对 本 书 提出 了 大 量 的 建设 性 构想 和 修改 意见 ， 并 参与 了 刘 
分 章节 的 编写 。 陈 浩 铭 和 王 羽 为 本 书 制作 了 精美 插图 。 
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第 1 章 揭 开 数 据 挖掘 的 面纱 


徐 教授 是 某 985 院 校 的 著名 教授 ， 国 内 数据 挖 据 专 家、 智能 信息 处 理 研 究 方向 学 
术 带 头 人 ,主持 了 20 多 项 国家 项 目 和 国际 合作 项 目 ， 具 有 丰富 的 数据 挖 据 项 目 实施 经 
验 ， 获 得 过 多 项 国家 级 大 奖 。 数 十 年 来 ， 他 潜心 科研 ， 除 了 给 自己 学 院 的 本 科 生 和 研 
究 生 上 课外 ， 一 直 谢绝 其 他 授课 邀请 。 这 次 他 破例 了 ， 欣 然 接受 了 本 校 管 理学 院 第 5 
届 EMBA 班 的 “数据 挖 气 及 其 应 用 ”课程 …… 
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1.1 历史 的 使 命 


今天 是 第 一 节 课 ,人 徐 教授 一 跨 进 教室 ， 迎 接 他 的 是 学 员 们 一 阵 热 烈 的 掌声 。 他 习 
惯性 地 扫 视 了 一 下 学 生 , 果然 正 像 管 理学 院 张 院 长 介绍 的 那样 , 在 座 的 学 员 不 同 寻常 ， 
年 龄 在 35 一 50 岁 之 间 ， 个 个 西装 革履 ， 精 神 焕发 ， 眼 睛 里 放射 出 对 新 知识 无 比 渴望 的 
光芒。 

徐 教授 走 上 讲台 , 先 在 黑板 上 写 下 了 自己 的 名 字 和 联系 方式 , 然后 微笑 着 说 :“ 同 
学 们 ,今天 我 能 站 在 这 儿 给 大 家 上 课 , 不 是 因为 你 们 管 院 张 院 长 有 面子 ， 也 不 是 因为 
你 们 这 些 学 员 地 位 有 多 高 ， 说 实在 的 ， 是 党 中 央 、 国 务 院 让 我 来 的 。” 学 员 们 个 个 目 
脸 口 采 。 

有 人 咬 咕 道 ， “难道 中 央 还 关心 我 们 这 个 EMBA 班 ? 。” 

“关心 ， 而 且 非 常 关心 。” 人 徐 教授 刍 销 有 力 地 回答 。 

大 家 更 加 疑惑 了 。 

徐 教授 提高 了 嗓门 : “2006 年 1 月 9 日 ， 在 全 国 科技 大 会 上 ， 党 中 央 、 国 务 院 作 出 
了 建设 创新 型 国家 的 重大 决策 。 大 家 都 知道 , 创新 型 国家 是 指 以 技术 创新 为 经 济 社会 
发 展 核心 驱动 力 的 国家 。 技 术 创新 需要 科学 家 和 科技 工作 者 的 努力 ， 更 离 不 开 政府 和 
企业 高 层 领导 和 管理 人 员 的 推动 。 张 院 长 在 邀请 我 来 给 你 们 上 课时 介绍 说 ,在 座 各 位 
都 在 政府 部 门 或 者 企业 地 位 显赫 ， 所 以 我 欣然 地 、 破 天 荒地 答应 了 你 们 院 长 的 邀请 。 
不 过 ， 别 以 为 是 你 们 的 乌 纱 帽 吸引 了 我 ， 而 是 你 们 每 一 个 人 身上 肩负 的 “建设 创新 型 
国家 ”的 历史 使 命 召唤 着 我 。” 

徐 教授 越 说 越 激动 ， 喝 了 口水 继续 说 : “我 为 科学 事业 奋斗 了 一 辈子 ， 深 知 “ 象 
牙 塔 ' 里 的 发 明 、 创 造 ， 需 要 与 经 济 建设 结合 才 更 能 体现 出 其 价值 ， 才 更 能 为 建设 创 
新 型 国家 做 出 贡献 。 理 论 创新 的 成 果 要 真正 转化 为 生产 力 ， 迫 切 需 要 一 种 推动 力 、 催 
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化 剂 。 而 能 起 到 这 种 作用 的 主体 非 你 们 这 些 人 莫 属 ， 诚 如 是 ， 你 们 就 是 建设 创新 型 国 


家 的 排头 兵 。 你 们 说 ， 党 中 央 能 不 关心 你 们 吗 ? ” 


徐 教授 的 话音 刚 落 ， 教 室 里 立刻 响起 长 时 间 的 掌声 。 


他 双手 从 上 向 下 慢 慢 挥动 ， 示 意 大 家 停 下 ， 接 着 说 : “ 近 十 年 来 数据 挖掘 技术 飞 
速 发 展 ， 在 国外 ， 数 据 挖 据 正在 变 成 整个 信息 技术 的 核心 之 一 。 尤 其 是 世界 500 强 企 
业 均 设立 了 数据 挖掘 研发 与 应 用 部 门 ， 数 据 挖掘 技术 已 成 为 其 业务 成 功 的 关键 因素 。 
2007 年 5 月 ，《 纽 约 时 报 》 以 “数据 挖掘 正在 进入 主流 ”为 题 ， 介 绍 了 数据 挖掘 技术 ， 
并 指出 这 种 新 技术 正在 变 成 人 们 工作 和 生活 中 不 可 或 缺 的 一 个 部 分 。” 


徐 教授 停顿 了 一 下 ， 向 大 家 问 道 : “在 国内 ， 数 据 挖掘 应 用 的 状况 怎样 ? ” 


T 钢 铁 公司 的 李 部 长 抢先 答 道 ， “在 我 国 ， 数 据 挖掘 在 互联 网 、 金 融 、 电 信和 商 
业 等 领域 已 经 有 一 些 成 功 的 应 用 ， 而 在 其 他 行业 如 制造 、 航 空 、 医 药 、 反 您 和 刑侦 等 
只 有 少量 的 尝试 。” 


“ 李 部 长 的 评价 比较 客观 , 但 大 家 想 过 没有 ,为 什么 我 们 与 发 达 国 家 的 差距 就 这 
么 大 呢 ? ” 徐 教授 反问 道 。 


教室 里 一 阵 沉默 。 


于 是 ， 徐 教授 坦率 地 表达 了 自己 的 看 法 : “其 实 我 也 一 直 在 考虑 这 个 问题 ， 当 然 
这 里 面 的 原因 很 多 。 直 到 你 们 管 院 张 院 长 请 我 给 你 们 上 数据 挖 气 课时， 我 又 发 现 了 一 
个 不 可 忽视 的 因素 一 一 政府 和 企业 高 层 对 数据 挖掘 不 甚 了 解 而 导致 他 们 对 此 不 够 重 
视 或 不 能 站 在 一 定 的 高 度 提出 有 价值 的 需求 。” 


徐 教授 的 一 席 话 引起 了 李 部 长 的 共鸣 ， 激 动 地 说 : “是 的 ， 徐 教授 讲 得 太 对 了 。 
就 拿 我 们 钢铁 公司 来 说 吧 ， 这 几 年 ， 我 们 整 天 喊 “ 插 进 世 界 500 强 ”， 人 忙于 引进 国外 
先进 设备 扩大 生产 规模 ， 但 却 忽视 与 外 界 的 技术 交流 而 成 为 井 底 之 蛙 ， 就 连 数据 挖掘 
这 样 在 世界 500 强 企业 如 雷 贯 耳 的 新 技术 我 们 却 闻所未闻 。 由 于 自己 不 具备 这 方面 的 
知识 ， 生 产 管理 中 遇 到 了 不 能 解决 的 问题 ， 自 然 不 会 用 数据 挖掘 的 思想 思考 ， 甚 至 基 
层 部 门 提出 使 用 这 样 的 方法 ， 领 导 层 却 因 对 此 不 甚 了 解 而 不 给 力 支持 。” 


李 部 长 的 话说 到 了 其 他 学 员 的 心坎 上 ， 他 们 个 个 首肯 。 


徐 教授 走 下 讲台 ， 语 重心 长 地 说 : “所 以 ， 我 给 你 们 上 数据 挖掘 课 来 了 ， 我 期 户 
从 领导 普及 数据 挖掘 知识 开始 ， 唤 起 人 们 对 数据 的 新 认识 ， 使 你 们 告别 基于 简单 统计 
分 析 的 “报表 ”决策 时 期 ， 跨 入 使 用 数据 挖掘 技术 的 “知识 ”决策 时 代 。 你 们 这 些 社 
会 各 界 的 精英 们 肩负 的 历史 责任 太 大 了 , 不管 是 政府 部 门 的 领导 还 是 企业 的 老总 ， 你 
们 每 天 都 在 做 各 种 各 样 的 决策 ， 稍 有 不 慎 就 可 能 给 国家 和 企业 带 来 重大 损失 。 我 相信 
各 位 想 为 国家 贡献 自己 的 力量 ， 但 陷入 “ 心 有 余 而 力 不 足 ”的 境地 ， 正 所 谓 “我 们 沉 
浸 在 数据 的 海洋 ， 渴 望 知识 的 淡水 ”! ” 
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听 完 徐 教授 一 席 话 ， 下 面 的 各 位 老总 感慨 颇 多 ， 台 下 一 片 沉思 。 


徐 教授 鼓励 大 家 道 : “数据 挖掘 的 最 高 境界 就 是 “从 数据 中 获取 知识 ， 辅 助 科学 
决策 ”。 和 希望 通过 我 们 的 数据 挖掘 课程 的 学 习 ， 使 你 们 了 解 到 什么 是 数据 挖掘? 它 能 
够 干什么 ”有 哪些 数据 挖掘 技术 ?怎么 应 用 ? 大 家 要 认识 到 , 数据 挖掘 不 同 于 一 般 的 
管理 软件 ， 编 好 了 拿 来 用 就 是 了 ， 数 据 挖掘 在 行业 的 成 功 应 用 也 是 一 种 创新 。 其 实在 
数据 挖掘 算法 方面 , 国内 〈 也 包括 我 ) 的 研究 团队 也 有 一 系列 的 国际 水 平 的 研究 成 果 ， 
但 愿 我 们 一 起 共同 努力 ,推动 数据 挖掘 技术 在 各 行 各 业 的 应 用 ， 为 建设 创新 型 国家 做 
出 最 大 的 贡献 ! ” 


教室 里 ， 又 是 一 阵 激动 人 心 的 掌声 。 


徐 教授 摆 了 摆手 ， 接 着 说 : “不 过 ， 给 你 们 上 这 门 课 可 让 我 费 了 不 少 脑筋 ， 你 们 
这 些 学 员 走 向 工作 岗位 都 在 10 年 以 上 了 ， 大 学 所 学 的 数学 知识 大 都 还 给 了 老师 ， 针 对 


数据 挖 所 


研究 生 的 讲法 对 你 们 不 适用 了 。 不过, 我 想 出 一 种 专门 针对 你 们 的 案例 教学 法 ,通过 
典型 的 应 用 实例 深入 浅 出 地 介绍 数据 挖掘 的 概念 、 功 能 、 流 程 和 算法 。” 


“ 太 好 了 ， 徐 老师 。 我 曾经 翻 过 几 本 数据 挖掘 的 书籍 ， 但 理论 性 太 强 ， 满 篇 数学 
公式 ， 真 让 人 望而却步 ， 而 且 应 用 实例 甚 少 ， 让 人 难以 理解 。” 李 部 长 感慨 地 说 。 


徐 教授 接着 说 : “OK， 言 归 正 传 ， 让 我 们 开始 数据 挖掘 之 旅 吧 。 我 先 给 大 家 讲 
三 个 真实 的 故事 ， 让 你 们 感受 一 下 数据 挖 抉 到 底 是 神 马 还 是 浮云 ? ” 


1.2 ”数据 挖掘 的 故事 


1.2.1 ”震撼 业界 的 发 现 
“有 一 个 人 叫 萨 姆 。 沃 尔 顿 的 人 ， 大 家 认识 
吧 ? ” 徐 教授 问 道 。 
教室 里 牙 雀 无声。 
“ 那 沃尔玛 ， 谁 没 听 说 过 ? ” 徐 教授 接着 问 。 
“ 连 三 岁 小 孩 都 知道 。” 一 学 员 小 声 说 。 


“哈哈 ， 萨 姆 。 沃 尔 顿 是 沃尔玛 公司 的 创始 人 
呀 ! ” 徐 教授 笑 着 说 。 


“对 了 ， 想 起 来 了 ， 萨 姆 " 沃 尔 顿 ， 是 他 将 一 
个 百货 商店 奇迹 般 地 经 营 为 全 球 最 大 的 连锁 零售 企业 ， 早 在 1985 年 10 月 就 被 《 福 
布 斯 》 杂 志 列 为 全 美 富豪 排行 榜 的 首位 ， 连 美国 前 总 统 布什 都 赞扬 他 是 地 道 的 美国 
人 ， 展 现 了 创业 精神 ， 是 美国 梦 的 缩影 ……” 某 超市 的 万 总 补充 说 。 


“是 的 ， 勤 奋 、 创 新 是 这 位 智慧 商人 成 功 的 法 宝 。 他 的 日落 原则 ”、 “十 英尺 
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态度 ”和 “三 米 微笑 ”等 服务 理念 以 及 营销 策略 “ 女 裤 理论 ”和 “啤酒 与 尿布 ”至 今 
在 商业 界 令 人 津津 乐 道 。 更 令 人 难忘 的 是 ， 本 世纪 初 “ 啤 酒 与 尿布 ”简直 就 成 了 “ 数 
据 挖掘 ”的 代名词 。” 徐 教授 继续 说 。 


“啤酒 与 尿布 ， 这 两 个 风 马 牛 不 相 及 的 东西 怎么 与 数据 挖掘 扯 上 了 关系 ? 徐 老 
师 ， 快 给 我 们 讲 讲 吧 ! ”移动 公司 的 梁 总 有 点 着 急 了 。 


“1983 年 ， 当 一 般 零售 商 还 在 进行 信息 化 建设 的 时 候 ， 沃 尔 玛 已 经 开始 与 休 斯 
公司 合作 , 花费 2400 万 美元 发 射 了 一 颗 人 造 卫 星 , 此 后 先后 投入 6 亿 多 美元 建 起 了 
电脑 与 卫星 系统 ， 还 发 明了 条 形 码 、 无 线 扫描 枪 、 计 算 机 跟踪 存货 等 新 技术 。 借 助 
于 整套 的 高 科技 信息 网 络 , 沃尔玛 的 各 部 门 沟通 、 各 业务 流程 可 迅速 、 准确 地 运行 ， 
数据 库 系 统 很 快 积 累 了 海量 的 经 营 数据 ， 包 括 大 量 的 顾客 消费 行为 记录 。 一 年 一 度 
的 圣诞 节 快 要 到 了 ， 沃 尔 玛 人 按照 惯例 又 一 次 筹划 节日 的 营销 策略 。 这 一 次 他 们 使 
用 了 一 种 新 的 “购物 篮 分 析 ” 软 件 ， 对 海量 的 顾客 消费 行为 进行 分 析 ， 一 个 意外 地 


发 现 让 他 们 瞳 目 结 舌 ，“ 跟 尿布 一 起 购买 最 多 的 商品 竞 然 是 啤酒 ! ”” 
“这 怎么 可 能 呢 ? ”有 学 员 也 感到 疑惑 不 解 。 
“经 过 反复 计算 、 核 实 ， 结 论 没 有 错 。” 徐 教授 答 道 。 
“不 过 ， 这 个 故事 告诉 我 们 什么 ? ”又 有 人 问 道 。 
“告诉 我 们 数据 挖掘 可 以 发 掘 埋藏 在 海量 数据 中 有 价值 的 信息 。” 徐 教授 答 道 。 


突然 ， 后 排 有 人 大 声 说 : “也 告诉 大 家 如 果 想 喝 啤 酒 ， 老 婆 不 让 买 ， 就 说 去 买 尿 
布 吧 ! ”车 得 大 家 哄 堂 大 笑 。 


接着 ， 徐 教授 问 : “这 是 数据 挖掘 技术 对 历史 数据 进行 分 析 得 出 的 知识 ， 这 个 
结果 符合 现实 情况 吗 ? 是 否 有 利用 价值 ? ” 


“还 利用 价值 ， 真 是 六 月 里 穿 皮 只 一 一 反常 ! ”有 学 员 不 以 为 然 。 


“ 紧 接 着 ， 沃 尔 玛 派出 市 场 调查 人 员 和 分 析 师 对 这 一 结果 进行 了 深入 研究 ， 证 
实 它 揭示 了 一 条 隐藏 在 “尿布 与 啤酒 ”背后 的 美国 人 的 一 种 行为 模式 ， 一 些 年 龄 在 
25 一 35 岁 的 年 轻 父 灯 下 班 后 经 常 要 到 超市 去 给 婴儿 买 尿 布 ， 而 他 们 中 有 30% 一 40% 
的 人 会 顺手 为 自己 买 几 瓶 啤酒 。” 


刚才 那 位 学 员 想 通 了 ， 小 声 说 : “对 了 ， 这 是 在 美国 ， 老 外 的 行为 模式 与 中 国 
人 就 是 不 一 样 ! 证 实 了 这 样 的 发 现 是 符合 实际 的 ， 沃 尔 玛 会 怎么 办 呢 ? ” 


徐 教授 挥动 了 一 下 电子 教 凌 ， 大 声 说 : “沃尔玛 立即 采取 了 行动 ， 将 卖场 内 原 
来 相隔 很 远 的 妇 婴 用 品 区 与 酒 类 饮料 区 的 空间 距离 拉 近 ， 使 顾客 更 加 方便 。 然 后 对 
本 地 区 新 生育 家 庭 的 消费 能 力 进行 了 调查 ， 对 这 两 个 产品 的 价格 也 做 了 调整 ， 并 向 
一 次 购买 达到 一 定金 额 的 顾客 赠送 婴儿 奶嘴 及 其 他 小 礼品 ， 结 果 是 尿布 与 啤酒 的 销 
售 量 双双 大 增 。” 


某 超 市 的 万 总 激动 地 站 了 起 来 ， 情 不 自 禁地 说 : “不 愧 为 全 球 零售 业 巨 头 啊 ， 
高 招 ， 值 得 借鉴 ! “ 
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徐 教授 一 边 示 意 她 坐 下 ， 一 边 说 : “是 的 ， 不 仅 在 零售 业 值得 借鉴 ， 这 种 “ 购 
物 篮 分 析 ” 后 来 演变 为 “关联 规则 分 析 ”， 并 在 其 他 行业 发 挥 重 大 应 用 , 我 们 EMBA 
班 的 学 员 有 很 多 来 自 于 工业 界 ， 下 面 再 给 你 们 讲 一 个 工业 生产 中 利用 数据 挖掘 技术 
节约 成 本 的 故事 。” 


1.2.2 ”降低 成 本 的 绝活 


徐 教授 : “工业 界 的 学 员 都 知道 ， 派克 汉 尼 汾 公司 是 一 家 世界 一 流 的 工业 企业 ， 
总 部 位 于 美国 ， 于 1918 年 由 Arthur L.Parker 先生 创立 。 早 在 上 世纪 70 年 代 已 发 展 
为 全 球 控制 领域 最 广 、 产 品种 类 最 完备 的 公司 ， 年 销售 额 超过 100 亿美 元 。 大 家 估 
计 下 派克 公司 的 年 维修 费用 是 多 少 ? ” 


“200 万 美元 ? » 
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“500 万 美元 ? » 


“该 公司 产品 出 售后 保修 一 年 ， 年 维修 费用 超过 了 一 亿美 元 。” 徐 老 师 说 。 


“我 们 鼓风机 厂 的 年 产值 也 比 不 上 人 家 的 年 维修 费 。” 一 学 员 喃 喃 自 语 。 
“ 那 怎样 降低 维修 费用 呢 ? ” 徐 教授 问 道 。 


“增加 研发 费用 ， 提 高 产品 质量 ! ” 李 部 长 抢先 道 。 


“不 错 ! 但 是 如 果 我 们 假设 在 目前 的 技术 条 件 下 , 产品 质量 已 经 达到 了 较 高 标准 。 
还 有 没有 其 他 办 法 ? ” 


“这 个 …… 难 道 是 数据 挖掘 ? ”有 一 学 员 自 语 道 ， 其 他 学 员 则 低头 沉思 。 
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徐 教授 肯定 地 说 ， “是 的 ， 派 克 公司 采用 了 数据 控 气 方法 。 以 一 款 干 燥 器 为 例 ， 
该 机 器 1200 多 种 零件 中 ， 常 坏 的 贵重 零件 约 20 种 。 应 用 数据 挖掘 的 关联 规则 分 析 发 
现 这 些 价格 昂贵 的 零件 的 寿命 竟然 大 多 数 与 少数 几 种 便宜 零件 的 谦 损 有 关 。” 

李 部 长 激动 了 : “ 妙 ， 妙 极 了 。 采 用 常 更 换 便宜 部 件 ， 达 到 延长 贵重 部 件 的 使 用 
寿命 ， 就 可 以 大 大 地 降低 维修 成 本 。 我 们 怎么 就 想不到 呢 ! ” 

徐 教授 看 着 李 部 长 ， 说 道 , “对 了 ， 派 克 公司 采用 了 这 样 的 策略 后 ， 仅 在 这 干燥 
器 这 种 产品 上 ， 每 年 节省 维修 费 高 达 上 千 万 美元 。” 

李 部 长 坐 不 住 了 ,大 声 说 : “我们 公司 的 不 锈 钢 生产 线 也 有 同样 的 问题 。 徐 老师 ， 
您 指导 我 们 也 挖 气 挖 气 吧 ! ” 

徐 教授 ，“ 别 着 急 ， 李 部 长 。 有 很 多 数据 挖掘 方法 能 够 解决 你 们 公司 生产 管理 、 
新 产品 设计 、 产 品质 量 控制 、 能 源 分 析 、 原 料 搭配 、 成 本 分 析 等 许多 问题 ， 以 后 我 们 
再 进一步 讨论 。” 

大 家 越 来 越 坚 信 数 据 挖 气 的 巨大 威力 ， 精 神 也 更 加 集中 了 。 


1.2.3 ”出 奇 制 胜 的 小 纸 条 
徐 老师 接着 说 道 : “我 们 在 座 的 学 员 大 部 分 喜欢 看 足球 比赛 ， 我 再 给 大 家 讲 个 
数据 挖掘 在 体育 方面 应 用 的 故事 。” 


这 时 ，PPT 上 出 现 了 一 个 章鱼 ， 光 笔 的 红 点 在 它 身 上 晃动 ， 徐 教授 问 道 : “上 届 
世界 杯 的 时 候 名 噪 一 时 的 “章鱼 帝 ”大 家 还 记得 吧 ? ” 


出 道 两 年 的 章鱼 保罗 在 2008 欧洲 杯 和 2010 世界 杯 两 届 大 赛 中 ， 预 测 14 次 猜 
对 13 次、 成 功率 92%， 堪 称 不 折 不 扣 的 “章鱼 帝 ”。” 足 球迷 李 部 长 先 吐 为 快 。 


徐 老师 补充 道 : “从 科学 的 角度 来 看 ， 章 鱼 帝 的 预测 仅 是 小 概率 事件 在 万 众 瞩 目 
下 发 生 了 而 已 。 但 是 2006 世界 杯 同样 是 德国 和 阿根廷 的 赛场 上 ， 不 是 章鱼 保罗 救 了 
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德国 ， 而 是 一 个 神秘 的 小 纸 条 。” 


“一 个 小 纸 条 有 这 么 大 的 作用 , 到 底 是 什么 小 纸 条 啊 ? 徐 老师 您 赶紧 给 我 们 讲 讲 
吧 ! ”有 人 急 不 可 待 。 


徐 教授 不 紧 不 慢 地 说 : “2006 年 世界 杯 上 ， 阿 根 廷 和 德国 在 1/4 决赛 中 120 分 钟 
难 分 高 下 ， 在 点 球 大 战 之 前 ， 老 门将 卡 恩 将 一 张 纸 条 递 到 莱 曼 手中 。 莱 曼 每 次 扑 点 球 
之 前 都 要 看 一 眼 纸 条。 结果 是 ， 莱 曼 所 有 点 球 都 判断 对 了 方向 ， 除 了 两 个 点 球 质量 太 
高 无 力 回 天 外 ， 其 他 全 部 扑 出 ， 阿 根 廷 只 能 黯然 出 局 。” 


“ 闭 纸 条 上 到 底 写 着 什么 锦 计 妙计?” 
“ 写 着 德国 胜 ! 哈哈 ， 可 惜 章鱼 保罗 还 没 出 生 。” 台 下 哄笑 一 营 。 
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徐 教授 摆 了 手势 ， 让 大 家 安静 ， 继 续 说 道 : “上面 记录 着 阿根廷 队 的 克 鲁 兹 、 阿 
亚 拉 、 罗 德里 格 斯 以 及 坎 比 亚 索 习惯 的 脚 法 。 德 国 队 守门 员 教 练 科普 克 如 此 精确 地 预 
测 出 阿根廷 球员 射出 的 点 球 方向 ， 并 不 是 他 有 什么 过 人 的 占卜 天 才 。 那 张 草草 写 在 格 
鲁 内 瓦尔 德 皇宫 酒店 便签 上 的 扑 点 球 秘籍 , 来 自 于 德国 科隆 体育 学 院 数据 分 析 小 组 夜 
以 继 日 的 努力 。” 


“点 球 就 是 点 球 了 , 纯 技 术 问 题 , 有 什么 可 分 析 的 嘛 ? ”足球 迷 李 部 长 不 以 为 然 。 


徐 教授 : “这 个 问题 问 得 好 。 分 析 小 组 的 人 员 收 集 了 阿根廷 队 13000 个 点 球 的 录 
像 ， 所 有 这 些 采集 回来 的 点 球 数据 被 输入 数据 库 中 ， 并 根据 阿根廷 射门 练习 的 数据 找 
出 了 一 些 可 以 描述 射门 动作 的 行为 特征 ， 最 终 从 这 些 特 征 中 提炼 出 很 少 的 更 具体 特 
征 。 大 家 说 说 点 球 动作 行为 特征 可 以 分 为 几 类 ? ” 


“两 类 ， 进 球 和 没 进 球 ! ” 某 人 的 幽默 引 来 全 班 大 笑 。 
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徐 教授 补充 道 : “这 些 特征 被 描述 为 : 阿 亚 拉 ， 短 助跑 ， 右 下 角 ; 里 克 尔 梅 ， 斜 
向 助跑 ， 右 下 角 ; 马克 西 ， 长 距离 助跑 ， 左 上 角 ; 坎 比 亚 索 ， 长 距离 助跑 ， 右 侧 ; 索 
林 ， 短 助跑 ， 右 下 角 ; 特 维 斯 ， 短 助跑 ， 中 路 ……。 这 些 特征 描述 了 阿根廷 队 谁 罚 点 
球 、 怎 样 罚 点 球 的 规律 。 正 是 这 张 小 纸 条 把 大 力 神 杯 交 到 了 德国 队 手中 ! 小 纸 条 上 总 
结 的 这 些 规 律 是 数据 挖掘 的 结果 ! ” 
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某 省 鼓 风 动 力 集团 的 王 总 快 人 快 语 : “数据 挖掘 可 太 有 用 了 。 徐 老师 ， 您 快 给 我 
们 讲 讲 什么 是 数据 挖掘 吧 。” 


这 时 ， 下 课 铃 响 了 ， 人 徐 教授 示意 大 家 休息 。 


1.3 ”什么 是 数据 挖掘 ? 


新 的 一 节 课 开始 了 ， 徐 教授 走 上 了 讲台 ， 清 了 清 嗓子 ， 声 音 更 加 洪亮 : “ 随 着 


是 庆生 


第 1 章 揭 开 数据 挖掘 的 面纱 


计算 机 技术 、 数 据 库 技 术 、 传 感 器 技术 和 自动 化 技术 的 飞速 发 展 ， 人 们 获取 数据 、 
存储 数据 变 得 越 来 越 容易 。 这 些 数据 不 是 人 为 产生 的 ， 是 对 我 们 所 研究 对 象 隐 含 的 
一 定 规律 的 反映 。 数 据 挖 据 的 目的 就 是 要 从 所 获取 的 数据 中 发 现 这 种 规律 性 的 知识 ， 
从 而 帮助 企业 在 他 们 的 数据 仓库 中 找到 最 重要 的 信息 ， 预 测 示 来 趋势 和 行为 ， 使 得 
商务 和 生产 活动 具有 前 瞻 性 ， 并 作出 具有 知识 驱动 的 决策 。” 


徐 教授 将 PPT 翻 回 到 数据 挖掘 的 故事 ， 继续 说 “通过 上 节 课 所 讲 的 三 个 故事 
相信 在 座 的 同学 对 数据 控 据 有 了 初步 的 认识 。 那 么 到 底 什么 是 数据 控 气 呢 ? 大 家 可 
以 发 表 下 自己 的 观点 。” 

学 员 们 你 一 言 ， 我 一 语 ， 争 先 丽 后 。 

“数据 控 气 就 是 从 数据 中 发 现 有 价值 的 信息 的 技术 。” 

“数据 控 气 是 对 数据 建立 模型 ， 通 过 算法 求解 而 发 现 隐 茂 在 数据 中 的 知识 的 一 
种 手段 。” 

徐 教授 总 结 道 ;“ 大 家 对 数据 控 气 的 认识 都 值得 表扬 , 不 过 表述 得 都 不 够 全 面 。” 
说 着 ， 徐 教授 怖 了 一 下 键盘 , 说 :“ 请 看 大 屏幕 , 这 才 是 最 权威 的 数据 挖掘 的 定义 。 


数据 挖掘 (Data Mining ) 就 是 从 大 量 的 、 不 完全 的 、 有 噪声 的 、 模 糊 的 、 


随机 的 数据 中 ， 提 取 隐 含 在 其 中 的 、 人 们 事先 不 知道 的 、 但 又 是 潜在 有 用 信 
息 和 知识 的 过 程 。 


大 家 认真 地 看 着 屏幕 的 内 容 。 
片刻 之 后 ， 有 学 员 问 道 : “数据 量 小 是 不 是 就 不 能 进行 数据 挖掘 了 ? ” 


徐 教 授 答 道 :“ 实 际 上 数据 挖掘 的 算法 大 都 是 建立 在 统计 学 大 数 定律 基础 上 的 。 
数据 量 太 小 ， 常 常 无 法 反映 出 真实 世界 中 的 普遍 特性 ， 这 样 挖 掘 算法 得 出 的 结论 自 
然 不 可 靠 。 但 并 非 小 数据 量 就 不 可 以 进行 挖掘 ， 近 年 来 研究 者 也 提出 了 一 些 对 小 样 


志和 


本 进行 挖掘 的 方法 ,如 支撑 向 量 机 方法 就 是 基于 小 样本 学 习 理论 的 非常 实用 的 方法 。 
数据 量 虽 小 ， 但 数据 总 是 事物 特性 一 EN 只 要 建立 的 模型 和 算法 得 当 ， 
当然 也 可 以 从 这 些 数据 中 获取 一 定 的 信息 。” 


“那么 是 不 是 数据 量 越 大 越 好 ? ”有 学 员 问 。 


“从 理论 上 说 , 应 该 是 这 样 。 但 随 着 数据 量 的 增 大 , 算法 执行 效率 会 越 来 越 低 ， 
甚至 无 法 计算 。” 徐 教授 回答 说 。 


刚才 提问 的 学 员 点 了 点 头 ， 接 着 问 : “ 徐 老师 ， 数 据 挖掘 的 定义 中 ， 数 据 前 面 
还 有 那么 多 的 修饰 ， 您 还 是 给 我 们 解释 解释 吧 。” 


“大 家 淡定 点 ，“ 不 完全 的 、 有 噪声 的 、 模 糊 的 、 随 机 的 ”确实 有 点 绕 口 ， 现 
实 中 经 常会 碰 到 这 种 数据 。 例 如 ， 问 卷 调查 时 发 现 不 少 人 不 填 婚 姻 状 况 和 年 龄 ， 这 
些 不 完全 的 或 缺失 的 数据 会 给 数据 挖掘 带 来 一 定 的 难度 ， 我 们 要 么 干脆 删除 这 些 样 
本 或 记录 ， 要 么 选择 使 用 一 定 的 方法 将 这 些 缺 失 数据 补 上 ， 或 者 选择 使 用 可 以 自动 
处 理 缺 失 数据 的 算法 。” 说 到 这 儿 ， 徐 教授 端 起 了 茶杯 ， 说 自己 也 要 补充 一 下 水 分 
了 。 


“ 那 噪声 是 什么 意思 ? ”一 个 学 员 问 。 


徐 教授 合 上 茶杯 盖子 ， 一 边 狠 锋 地 用 杯子 连续 敲 击 着 桌子 ， 一 边 说 : “对 于 我 
讲课 的 声音 来 说 ， 敲 桌子 的 声音 罗 人 人 音 机 录 到 的 是 我 的 讲话 声 和 敲 
桌子 声 混杂 在 一 起 的 混合 声波 数据 。” 


“我 明白 了 ， 由 于 异常 情况 的 干扰 ， 使 我 们 获得 的 数据 偏离 了 真实 值 ， 这 样 的 
数据 就 是 噪音 数据 。” 刚 才 提 问 的 学 员 说 。 

“不 光 是 外 界 的 干扰 ， 测 量 仪 器 的 故障 、 人 工 输 入 或 抄写 时 的 失误 等 都 可 能 形 
成 噪音 数据 ， 可 见 实 际 问题 中 噪音 数据 往往 难以 避免 。” 徐 教授 进一步 解释 说 。 


“ 徐 老师 ， 什 么 是 模糊 的 、 随 机 的 数据 ? ”又 有 一 学 员 问 。 
“在 数据 挖掘 过 程 中 ， 我 们 不 可 避免 地 要 涉及 事物 的 不 确定 性 。 不 确定 性 包括 
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模糊 性 和 随机 性 。 模 糊 性 则 指 事物 本 身 从 属 概念 的 不 确定 性 ， 随 机 性 是 指 事件 发 生 
与 否 的 不 确定 性 。” 


“ 太 抽 象 了 ， 徐 老师 ， 您 给 我 们 举 个 例子 吧 ! ” 李 部 长 建议 说 。 


“好 吧 。 其 实 模糊 的 数据 大 家 平时 经 常见 到 ， 比 如 说 张 三 个 子 很 高 ， 李 四 个 子 
较 矮 ， 个 子 的 高 矮 就 是 典型 的 模糊 性 概念 ， 到 底 多 高 才 算 高 ， 李 部 长 1 米 80， 对 一 
般 人 来 说 算 高 个 子 ， 但 跟 姚 明 比 ， 就 太 矮 了 。 随 机 数据 也 极为 多 见 ， 比 如 说 超市 啤 
酒 每 天 的 销量 显然 是 不 确定 的 ， 大 部 分 人 买 啤酒 是 在 超市 转悠 时 临时 决定 的 。” 徐 
教授 回答 道 。 


李 部 长 扶 了 扶 眼镜 ， 支 支 香 吾 地 说 : “我 似乎 明白 了 …*…” 


本 科 应 用 数学 专业 毕业 的 王 总 快 人 快 语 : “ 李 部 长 ， 我 借 给 你 《模糊 集 的 应 用 》 
和 《概率 统计 》 两 本 书 ， 看 看 你 才 会 真正 明白 。 我 要 问 新 的 问题 了 , 徐 老师 , 数据 挖 
掘 的 目的 是 从 数据 中 发 现 新 的 信息 和 知识 ， 那 挖掘 出 来 的 知识 是 什么 ? ” 


徐 教授 回答 道 :“ 挖 抉 出 来 的 知识 就 是 “散落 的 珍珠 ，, 亦 或 是 “发光 的 金子 ”， 
它 的 实际 决策 价值 非凡 。 知 识 是 通过 对 数据 进行 深入 地 归纳 、 分 析 而 获得 的 ， 是 对 
所 研究 对 象 更 深层 次 的 认识 。 知 识 是 隐藏 在 数据 中 的 关于 所 研究 对 象 的 一 种 规律 性 ， 
比如 可 以 用 来 预测 的 数学 模型 、“ 如 果 …… 那 么 ……” 这 样 的 规则 、 描 述 事物 的 类 
别 、 有 价值 的 模式 、 所 研究 对 象 的 结构 、 研 究 对 象 与 对 象 之 间 的 关系 等 。” 


1.4 历史 的 必然 


EMBA 教室 的 座位 是 半 弧 形 的 ， 中 间 有 通道 ， 老 师 讲课 时 部 分 时 间 是 站 在 学 生 
中 间 的 ， 课 堂上 师 生 交 流 非常 方便 。 
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“人 类 走 过 了 石器 时 代 ， 纸 器 时 代 ， 磁 器 时 代 ， 直 至 现在 的 网 络 技术 时 代 和 正 
在 跨 入 的 物 联网 时 代 ， 这 些 智 慧 、 文 明 的 结晶 是 怎么 样 代 代 相 传 ， 生 生 不 息 地 保留 
和 继承 下 来 的 呢 ? ” 徐 教授 问 。 


“信息 获取 ……- 9 
将 信息 存储 e000 » 
“信息 查询 ……” 
“信息 的 加 工 和 应 用 ……” 


旁边 的 学 员 们 陆 陆续 续 地 表达 了 自己 的 看 法 。 


“对 ， 确 实 是 这 样 。 人 们 通过 信息 的 获取 、 存 储 与 查询 、 加 工 和 应 用 几 个 环节 
实现 知识 传播 、 继 承 和 发 展 。” 徐 教授 对 学 员 们 的 回答 很 满意 。 

随后 ， 徐 教授 通过 PPT 展示 了 一 个 图 ， 并 讲述 了 伴随 着 人 类 历史 文明 发 展 和 进 
化 的 长 河 ， 人 们 对 知识 和 信息 的 存储 、 加 工 应 用 的 演化 进程 。 


天 然 媒 介 期 @ 文字 媒介 期 “本 印刷 媒介 期 于》 电子 媒介 期 本 > 数字 化 媒介 期 


知识 信息 加 工 利用 知识 信息 加 工 利用 知识 信息 加 工 利用 知识 信息 加 工 利用 知识 信息 加 工 利用 
处 于 快速 发 展 阶段 井喷 式 爆发 阶段 


几乎 没有 萌芽 阶段 


“从 人 类 有 了 获取 信息 的 能 力 开始 ， 便 不 断 对 信息 进行 归纳 总 结 。 大 家 想 想 ， 有 


= 


第 1 章 揭 开 数据 挖掘 的 面纱 


哪些 谚语 可 以 说 明 ， 古 人 就 开始 针对 观察 到 的 信息 进行 分 析 和 归纳 了 ? ” 徐 教授 刚 问 
完 ， 谚 语 大 接龙 便 开始 了 。 


“ 连 发 三 日 东北 风 ， 定 有 大 水 后 面 跟 。” 
“天 上 起 了 泡 头 云 ， 不 过 三 天 雨 淋淋 。” 
“星光 闪闪 如 动摇 ， 大 十 下 得 没 处 逃 。” 


“通过 祖祖辈辈 的 观察 、 积 累 与 归纳 ， 人 们 发 现 了 自然 现象 与 天 气 的 “关联 规 
则 ””， 徐 教授 总 结 说 。 


突然 ， 第 一 排 的 一 个 学 员 站 起 来 说 道 : “对 于 一 些 简单 的 自然 现象 ， 可 以 通过 归 
纳 提取 形成 经 验 知识 ， 但 现实 世界 太 多 的 复杂 问题 ， 数 据 量 极 大 ， 已 经 远 远 超出 了 人 
脑 可 处 理 的 范围 。” 

他 旁边 的 一 位 学 员 也 感慨 地 说 : “是 的 ， 现 在 获取 数据 非常 容易 ， 就 拿 我 们 钢铁 
公司 来 说 ， 每 日 产生 的 数据 超过 3Gb， 要 是 将 这 些 数据 放 在 我 的 脑子 里 ， 脑 瓜 表 定 爆 
炸 了 ， 更 不 用 说 处 理 、 归 纳 得 到 知识 了 。?” 

看 看 他 茧 节 的 笑容 ， 大 家 都 被 逗乐 了 ， 之 后 便 都 陷入 了 沉思 。 

“不 是 有 计算 机 么 ， 人 就 不 用 操 那 么 多 心 了 。” 男 外 一 个 学 员 小 声 说 。 


于 是 ， 徐 教授 解释 说 : “上 世纪 60 年 代 ， 尽 管 有 了 计算 机 ， 但 对 数据 是 以 零散 文 
件 方式 进行 管理 的 。 我 们 能 够 收集 、 存 储 、 处 理 如 此 海量 的 数据 ， 归 功 于 20 世 纪 70 
年 代 IBM 人 发明 的 关系 式 数据 库 和 SQL 查询 语言 。 在 此 基础 上 通过 计算 机 和 网 络 进行 联 
机 事务 处 理 (OnLine ”Transaction Processing，OLTP) 可 以 对 管理 信息 进行 日 常 操作 
并 及 时 、 安 全 、 高 效 地 存储 数据 ， 这 样 便 引 发 了 数据 爆炸 式 地 增长 。” 
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电信 公司 冯 总 ， 计 算 机 专业 硕士 ， 在 单位 负责 数据 仓库 建设 ， 听 到 这 里 ， 话 匣子 
关 不 住 了 : “OLTP 关 心 的 只 是 业务 操作 ， 只 对 当前 数据 感 兴趣 。 其 实 信 息 处 理 的 目 
的 是 为 人 们 提供 决策 支持 ， 这 就 需要 对 历史 数据 进行 大 量 地 分 析 处 理 。 对 历史 数据 的 
分 析 ， 往 往 导致 系统 进行 长 时 间 运 行 ， 严重 影响 日 常数 据 实时 操作 ， 这 就 要 求 把 分 析 
性 操作 及 其 相关 数据 从 事务 处 理 环境 中 提取 出 来 ， 按 照 决策 支持 的 需要 进行 重新 组 
织 ， 建 立 单独 的 分 析 环 境 。” 


李 部 长 这 几 年 读 了 不 少 信息 处 理 方面 的 书籍 ， 他 接 上 了 话 茬 : “为 了 满足 这 种 需 
求 , W. H. Inmon 于 1993 年 出 版 了 “Building the Data Warehouse”, 从 此 数据 仓库 (Data 
Warehouse) 隆重 登场 ，W.H.Inmon 也 当之无愧 地 成 为 数据 仓库 之 父 。 他 给 出 了 数据 
仓库 定义 : “数据 仓库 是 一 个 面向 主题 的 、 集 成 的 、 随 时 间 变 化 的 、 持 久 的 数据 集合 ， 
用 于 支持 管理 层 的 决策 过 程 ”。 在 数据 仓库 产生 的 同时 ， 联 机 在 线 分 析 (OnLine 
Analytical Processing，OLAP) 出 现 了 ， 它 是 一 种 具有 对 数据 进行 汇集 、 合 并 和 聚集 
以 及 从 不 同 角 度 观察 信息 的 分 析 技术 。” 


电信 公司 冯 总 ， 在 单位 里 被 誉 为 数据 仓库 专家 ， 继 续 说 : “通过 OLAP 技 术 可 以 
对 从 数据 库 或 数据 仓库 得 到 的 经 验 、 规 则 进行 验证 ， 当 然 也 可 以 对 数据 挖掘 结果 的 有 
效 性 、 可 行 度 进行 检验 、 完 善 。 然 而 ， 数 据 库 和 数据 仓库 越 建 越 大 , 通过 直观 的 感觉 、 
简单 的 统计 分 析 和 OLAP 技 术 并 不 能 发 现 隐藏 在 数据 中 有 价值 的 信息 和 知识 。” 


“上 世纪 80 年 代 末 到 90 年 代 初 ， 广泛 流传 着 一 句 耐 人 寻味 的 话 “ 我 们 沉浸 在 数据 
的 海洋 中 ,但 却 渴望 着 知识 的 淡水 ，”， 这 人 句 话 生动 地 描绘 了 人 们 面 对 海 量 数据 的 迷 届 
和 无 奈 。” 徐 教授 深沉 地 说 。 

突然 ， 徐 教授 抬 高 了 嗓门 : “一 石 激 起 千 层 浪 ， 这 时 沃尔玛 演绎 了 一 场 “ 啤 酒 和 
尿布 的 故事 ”， 它 使 人 们 看 到 了 数据 分 析 的 希望 ， 播 起 了 数据 挖掘 的 战鼓 , 一 场 数据 
挖掘 的 风暴 开始 了 ……” 


几 个 学 员 抑制 不 住 内 心 的 激动 ， 你 一 言 、 我 一 语 地 表达 自己 的 观点 : 
“商业 界 发 现 了 沃尔玛 迅猛 发 展 的 密 招 ， 纷 纷 效仿 。” 
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“电信 行业 沸腾 了 , 各 公司 纷纷 争先 斑 后 地 利用 数据 挖掘 这 一 锐利 武器 解决 他 们 
面临 的 最 紧迫 的 问题 ， 如 客户 分 群 、 客 户 流失 原因 及 预测 、 业 务 套餐 及 响应 、 关 联 消 

“工业 界 也 着 急 了 ， 他 们 的 数据 堆积 如 山 ， 期 望 从 中 挖掘 出 金子 ， 指 导 生产 和 管 
理 。” 


“科学 界 大批 科 研 工作 者 聚焦 于 数据 挖 握 ， 紧 锣 密 鼓 地 投入 到 该 新 生 领 域 的 研 


徐 教授 走 上 讲台 ， 总 结 道 : “人 常 说 ，“ 需 求 ”是 成 功 之 源 。 商 业 管理 、 生 产 控 
制 、 市 场 分 析 到 工程 设计 、 科 学 探索 等 将 堆积 如 山 的 数据 资源 转换 为 信息 和 知识 的 巨 
大 需求 ， 促 使 着 数据 挖掘 技术 的 飞速 发 展 。 九 十 年 代 中 期 以 后 ， 基 于 数理 统计 、 人 工 
智能 、 机 器 学 习 、 神 经 网 络 等 多 种 技术 ,关于 数据 挖掘 软件 的 开发 和 应 用 成 为 热点 。” 


徐 教授 的 话音 刚 落 ， 有 学 员 便 问 道 :“ 徐 老师 ,您 一 会 儿 说 数据 库 中 的 知识 发 现 ， 
-会 儿 又 用 数据 挖掘 ， 我 真 不 知道 它们 之 间 的 关系 。” 
“2008 年 我 在 李 部 长 他 们 钢铁 公司 作 数 据 挖掘 报告 , 也 有 几 个 人 问 我 同样 的 问 
题 。 在 1989 年 8 月 第 11 届 国 际 人 工 智能 联合 会 议 上 ， 数 据 挖 掘 以 数据 库 中 的 知识 
发 现 (Knowledge Discovery in Database，KDD) 第 一 次 正式 亮相 。 从 此 以 后 ， 数 据 
挖掘 (Data Mining) 和 数据 库 中 的 知识 发 现 〈(KDD) 互 为 别名 ， 但 后 来 数据 挖 据 
渐渐 被 多 数 人 喜 闻 乐 道 。” 徐 教授 回答 道 。 


刚才 那 位 提问 的 学 员 是 EMBA 班 里 有 名 的 “ 问 到 底 ”， 继 续 穷 妃 不 舍 : “ 徐 老 
师 ， 数 据 挖掘 是 在 什么 时 候 被 大 家 普遍 接受 的 呢 ? ” 


李 部 长 急 了 ， 站 了 起 来 : ““ 问 到 底 ” 同 学 ， 你 是 不 是 一 定 要 考 倒 徐 老师 ! ” 


徐 教授 赶紧 解围 : “这 个 问题 已 经 难以 考证 ， 大 约 在 上 世纪 90 年 代 开始 ， 数 据 
挖掘 占 了 上 风 ， 其 中 还 有 一 段 趣事 。” 
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“ 问 到 底 ” 顾 不 上 理会 李 部 长 ， 高 兴 地 说 : “ 徐 老师 又 要 讲 故事 了 。?” 


徐 教授 示意 李 部 长 坐 下 ， 笑 着 说 : “其 实学 院 派 最初 一 直 沿 用 数据 库 中 的 知识 发 
现 即 KDD。 在 一 次 KDD 国际 会 议 中 ， 委 员 会 曾经 展开 讨论 ， 到 底 使 用 KDD， 还 是 
Data Mining。” 


“ 问 到 底 ” 急 切 地 说 : “肯定 一 致 同意 使 用 Data Mining。” 


徐 教授 押 了 摆手 道 : “会 议 上 大 家 争论 不 休 ， 讨 论 了 两 个 小 时 没有 结果 。 要 是 你 
们 是 当时 参 会 的 专家 ， 会 怎么 定 这 个 名 字 ? ” 


“ 抓 交 ” 
“ 抛 硬币 ” 
“ 听 会 议 主席 的 ” 


学 员 们 也 开 起 了 玩笑 。 


徐 教授 说 到 : “呵呵 ， 我 们 中 国人 喜欢 举 手 表决 ， 外 国人 也 兴 这 一 套 。 会 议 主席 
最 后 决定 投票 表决 ， 结 果 很 具有 戏剧 性 ， 一 共 16 名 委员 ， 其 中 8 位 投票 赞成 KDD， 
另 8 位 赞成 Data Mining。” 


“ 问 到 底 ” 露 出 一 副 为 难 的 表情 : “这 可 怎么 办 呢 ?”” 


徐 教授 答 道 : “事实 上 ， 根 据 当 时 会 议 的 记录 ， 最 后 一 位 元 老 站 出 来 说 “数据 挖 
据 这 个 术语 太 为 土气 ， 科 学 研究 就 是 要 获得 新 的 知识 ”。” 


“ 问 到 底 ” 感 到 有 些 失 望 : “ 老 奸 巨 独 ， 跟 没 说 一 样 ! ” 


“怎么 跟 没 说 一 样 ? 他 作 了 双重 肯定 。 于 是 在 科研 界 便 继续 沿用 KDD 这 个 术语 ， 
而 在 商用 领域 , 因为 “数据 库 中 的 知识 发 现 " 显得 过 于 元 长 ， 就 普遍 采用 了 更 加 通俗 、 
简单 的 术语 “数据 挖掘 ”。” 
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1.5 数据 挖掘 能 干什么 ? 


要 讲 数据 挖掘 的 功能 ， 大 家 都 非常 感 兴趣 。 徐 教授 提高 了 嗓门 : “前 面 我 给 大 
家 讲 了 数据 挖掘 的 三 个 故事 ， 并 给 出 了 数据 挖掘 的 定义 ， 还 简要 地 回顾 了 一 下 数据 
挖掘 产生 的 过 程 ， 可 数据 挖 所 到 底 能 干 些 什么 呢 ? ” 


“购物 篮 分 析 ” 


“用 户 分 群 ” 

“客户 流失 分 析 ” 

“服务 套餐 设计 ” 

a 

学 员 们 纷纷 根据 自己 的 直观 理解 回答 着 。 


“大 家 所 说 的 只 是 根据 我 前 面 讲 的 内 容 概 括 了 数据 挖掘 的 一 些 功能 。 有 个 成 语 
叫做 “盲人 摸 象 ”， 我 才 领 着 大 家 摸 了 大 象 的 一 条 腿 而 已 ， 哈 哈 。” 徐 教授 开玩笑 。 

“ 徐 老师 ， 在 座 的 学 员 大 部 分 是 政府 部 门 和 大 中 型 企业 的 头头 脑 脑 ， 我 们 首先 
希望 知道 数据 挖掘 到 底 能 够 于 什么 ， 至 于 怎么 干 那 就 是 工程 师 的 事 了 。 您 就 先 概括 
一 下 数据 挖掘 的 功能 吧 。” 高 新 区 的 段 主 任 建 议 说 。 
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徐 老师 :， “好 吧 。 概 括 地 说 ， 数 据 挖掘 的 功能 主要 包括 关联 分 析 、 聚 类 分 析 、 
分 类 、 回 归 、 时 间 序 列 分 析 和 偏差 甄别 等 ， 下 面 我 们 分 别 介 绍 这 些 功 能 。” 


1.5.1 关联 (association) 规则 挖掘 


徐 教授 又 将 PPT 翻 回 到 “啤酒 与 尿布 ”的 画面 ， 说 : “大 家 还 记得 吧 ， 沃尔玛 
在 海量 的 交易 数据 中 发 现 了 美国 人 的 一 种 行为 模式 :年 龄 在 25 一 35 岁 的 年 轻 父亲 在 
给 婴儿 买 尿布 的 同时 ， 有 30% 一 40%6 的 会 为 自己 买 啤 酒 。 这 就 是 龙 动 一 时 的 啤酒 与 
尿布 的 关联 规则 。” 

听 了 徐 教授 的 这 句 话 ， 李 部 长 灵机 一 动 : “ 徐 老师 ， 这 么 说 之 前 您 讲 的 第 二 个 故 
事 中 , 派克 汉 尼 汾 公司 发 现 昂贵 零件 的 寿命 与 少数 几 种 便宜 零件 的 磨损 有 关 也 是 一 种 
关联 规则 。” 
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“对 ， 关 联 是 指 一 个 事件 与 另 一 个 事件 之 间 的 依赖 关系 。 关 联 规则 挖掘 就 是 发 气 
数据 库 中 的 关联 关系 ， 大 家 还 了 解 到 哪些 关联 规则 的 应 用 ? ” 徐 教授 问 。 


华润 超市 市 场 营销 主管 万 总 抢先 说 道 : “ 徐 老师 ， 据 我 所 知 ， 关 联 规则 已 经 成 为 
各 大 超市 安排 商品 布局 、 促 进 销 售 量 的 一 种 法 宝 。 近 年 来 ， 电 信 公 司 、 保 险 公司 和 美 
容 公 司 等 服务 行业 都 争先 恶 后 地 效仿 零售 业 的 这 种 做 法 , 纷纷 设计 各 种 套餐 ,实现 捆 
绑 促 销 。” 


电力 公司 的 赵 总 : “在 电力 行业 ， 一 些 发 达 国 家 通过 关联 分 析 对 输 变 电 设备 进行 
状态 检测 ， 为 状态 检修 计划 的 制定 提供 科学 依据 。” 

卫生 局 江 副 局 长 :“ 国 内 外 均 有 报道 , 有 人 将 关联 规则 控 气 应 用 于 临床 疾病 诊断 ， 
比如 通过 实例 试图 发 现 吸烟 、 环 境 污染 、 职 业 、 肺 部 慢性 疾病 等 因素 与 肺癌 的 发 生 之 
间 的 关联 ， 从 而 发 现 肺癌 与 它 产生 的 可 能 因素 间 的 规则 ， 利 用 规则 模式 指导 肺癌 的 诊 
断 与 预防 。” 

大 家 纷纷 介绍 本 行业 中 关联 规则 的 应 用 情况 , 令 徐 教授 惊 论 不 已 , 不 解 地 间 :“ 你 
们 怎么 都 知道 这 么 多 ?” 

学 员 们 含笑 不 语 。 

李 部 长 道 出 了 其 中 的 奥秘 : “ 徐 老师 ， 在 X 大 学 ， 谁 都 知道 ， 您 上 课 的 最 大 特点 
是 激情 豪 近 ， 互 动 共鸣 。 我 们 EMBA 班 的 学 员 都 工作 了 数 年 ， 现 在 能 坐 在 教室 充电 
售 感 机 会 来 之 不 易 ， 大 家 在 您 上 课 的 头 一 天 晚上 都 会 进行 预习 并 准备 与 您 配合 的 村 
料 。 » 

徐 教授 高 兴 地 笑 了 ， 接 着 说 ， “ 那 我 就 要 再 问 了 ， 最 基本 的 关联 规则 挖掘 算法 
是 什么 ? 该 算法 的 基本 思想 是 什么 ? ” 

教室 里 驳 符 无 语 。 

徐 教授 环视 了 一 周 ， 发 现 华润 超市 的 万 总 跃跃欲试 ， 便 鼓励 说 : “万 总 ， 你 来 说 
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说 ， 不 完全 的 我 来 补充 。” 


万 总 鼓 足 了 勇气 ， 大 声 道 : “最 经 典 的 关联 规则 算法 是 由 Agrawal 和 Verkamo 
于 1994 年 提出 的 Apriori 算法 ， 此 后 近 十 多 年 来 ， 这 方面 的 文章 已 达 上 万 篇 之 多 , 但 
都 是 基于 这 种 算法 围绕 着 如 何 提高 关联 规则 挖掘 算法 的 效率 、 在 海量 数据 集 上 进行 关 
联 规则 提取 、 如 何 挖掘 有 价值 的 关联 规则 和 关联 规则 的 应 用 这 些 主题 进行 研究 的 。 至 
于 Apriori 算法 的 思想 ……， 我 记 不 太 清楚 了 。” 


徐 教授 鼓励 说 : “回答 的 不 错 ， 可 见 课 前 准备 花 了 很 大 功夫 ， 值 得 表扬 。” 


徐 教授 的 话音 刚 落 ， 万 总 又 开 了 口 : “我 记 起 来 了 ，Apriori 算法 的 基本 思想 是 : 
首先 从 事件 中 集中 寻找 所 有 频繁 出 现 的 事件 子 集 , 然后 在 这 些 频繁 事件 子 集中 发 现 可 
信 度 较 高 的 规则 。” 


徐 教授 示意 万 总 坐 下 ， 继 续 说 : “Apriori 算法 的 大 概 思想 就 是 这 样 ， 算 法 的 详细 
描述 大 家 可 参考 教材 。 我 想 大 家 更 关注 的 是 关联 规则 的 应 用 ， 近 年 来 有 很 多 学 者 开展 
关联 规则 与 分 类 、 聚 类 挖掘 方法 的 结合 研究 ; 利用 关联 规则 进行 属性 选择 和 数据 降 维 
等 。 我 收集 了 一 些 这 方面 的 研究 成 果 和 应 用 案例 , 请 大 家 从 我 的 个 人 网 站 下 载 阅读 。” 


1.5.2 聚 类 


“在 平时 的 人 际 交 往 和 私下 的 生活 空间 中 , 大 多 数 人 会 自觉 不 自觉 地 加 入 到 一 个 
个 社交 轿子 中 。 “驴友 ′”、“ 同 学 会 ，、“ 高 尔 夫 俱 乐 部 ”等 ,林林总总 。 真 可 谓 “ 物 
以 类 聚 ， 人 以 群 分 ，。” 徐 教授 开始 了 聚 类 的 讲解 。 


“ 徐 老师 ， 是 不 是 说 ， 圈 子 就 是 聚 类 ? ”一 个 学 员 问 。 
徐 教授 没有 正面 回答 ， 继 续 说 : “大 家 想 一 想 ， 生 活 中 的 圈子 有 什么 特点 ? ” 


李 部 长 站 了 起 来 : “社会 学 家 指出 ，“ 圈 子 ”就 是 由 志向 、 趣 味 、 地 位 、 年 龄 、 
职业 、 爱 好 、 特 长 、 个 性 、 收 入 甚至 居住 地 点 比较 相近 的 人 自发 形成 的 团体 。” 
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“对 了 ,， 正 是 因为 这 些 人 具有 相似 的 特征 ， 他 们 才能 聚集 在 一 起 。 聚 类 就 是 将 数 
据 对 象 划分 成 若干 个 类 , 在 同一 类 中 的 对 象 具 有 较 高 的 相似 度 ， 而 不 同类 中 的 对 象 差 
异 较 大 。” 徐 教授 趁机 给 出 了 聚 类 的 经 典 定义 。 


刚才 提问 的 那 位 学 员 从 徐 教 授 话语 中 悟 出 了 聚 类 的 真 诺 ， 感 慨 道 : “我 有 点 明白 
了 ， 我 们 加 入 某 个 “圈子 ”， 实 际 上 就 是 聚 类 的 过 程 ， 因 为 这 个 圈子 的 成 员 与 我 们 有 
着 相似 的 特点 。” 

这 时 ， 徐 教授 才 对 这 位 学 员 的 理解 (圈子 就 是 聚 类 ) 作 了 正面 回应 : “回答 正确 ， 
加 十 分 ! ” 

“ 徐 老师 ， 从 聚 类 的 定义 来 看 ， 进 行 聚 类 前 并 不 知道 所 研究 的 对 象 有 多 少 个 类 ， 
聚 类 的 过 程 就 是 通过 相似 性 的 度量 ， 使 对 象 聚 集成 若干 个 类 ， 各 个 类 的 成 员 具 有 其 共 
同 的 或 相似 的 特性 。” 李 部 长 说 出 了 自己 对 聚 类 的 理解 。 
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徐 教授 认为 李 部 长 的 理解 已 经 比较 深刻 ， 频 频 点 头 。 他 因势利导 ， 又 提出 了 一 个 
深刻 的 问题 : “ 聚 类 的 关键 是 对 象 相似 性 的 度量 ， 大 家 想 一 想 ， 如 何 度量 数据 对 象 的 
相似 性 呢 ? ” 

李 部 长 抢答 道 “两 个 对 象 间 的 距离 越 小 ， 说 明 二 者 越 相 似 ， 用 距离 度量 对 象 的 
相似 性 应 该 是 最 自然 的 方法 。” 

徐 教授 满意 地 点 了 点 头 : “对 ， 基 于 距离 度量 对 象 的 相似 性 的 思想 ， 研 究 者 提出 
了 两 类 经 典 的 聚 类 算法 : 划分 方法 和 层次 聚 类 方法 。” 

马 处 长 似乎 对 这 两 种 方法 有 所 了 解 ， 说 道 : “ 听 我 们 数据 挖掘 算法 组 的 小 彭 经 常 
说 Partitioning Method 和 Hierarchial Method, 原来 就 是 指 的 这 两 类 聚 类 算法 。 徐 老师 ， 
昨天 晚上 我 预习 时 大 概 了 解 了 一 下 聚 类 算法 , 但 理解 不 够 深刻 , 您 就 给 我 们 讲 讲 吧 。” 


徐 教授 欣然 答应 ， 但 没有 立即 开始 讲 算法 ， 他 先 引导 学 员 回 顾 基本 的 数学 知识 ， 
问 道 : “大 家 还 记得 距离 怎么 计算 ? ” 

电力 公司 的 马 处 长 简洁 地 答 道 : “用 欧 氏 距离 喘 ! ” 

“对 ， 就 是 大 家 在 高 等 数学 中 经 常用 到 的 欧 几 里 德 〈Euclid) 距离 。 不 过 在 聚 类 
分 析 中 ， 还 经 常用 到 曼 哈 坦 (Manhattan) 距离 、 切 比 雪 夫 〈Chebyshev) 距离 、 马 哈 
拉 诺 比 斯 (Mahalanobis) 距离 等 。 其 实 ， 凡 是 满足 距离 定义 的 四 个 条 件 〈 即 唯一 性 、 
非 负 性 、 对 称 性 和 三 角 不 等 式 ) 的 函数 都 可 以 作为 距离 公式 。” 

徐 教授 扫 视 了 一 下 学 员 ， 觉 得 大 家 理解 了 距离 的 含义 ， 于 是 说 : “好 了 ， 我 现在 
就 简单 地 介绍 一 下 基于 距离 的 聚 类 算法 : 划分 方法 和 层次 聚 类 方法 。 这 两 类 方法 的 典 
型 代表 分 别 为 k-Means、k-Medoids 和 聚集 、 分 裂 算法 。 下 面 我 就 分 别 介绍 这 些 算 法 。” 

徐 教授 翻动 了 一 下 PPT， 接 着 说 道 : “k-Means 算法 的 核心 思想 是 把 n 个 数据 对 
象 划分 为 k 个 类 ， 使 每 个 类 中 的 数据 点 到 该 类 中 心 的 距离 平方 和 最 小 。” 
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k-means 算 法 的 流程 
a 分 类 个 数 kK， 包 含 n 个 数据 对 象 的 数据 


输出 : k 个 聚 类 。 

(TD) 从 n 个 数据 对 象 中 任意 选取 k 个 对 象 作为 初 
始 的 聚 类 中 心 ; 
人 各 个 聚 


李 部 长 的 脑子 是 双核 的 ， 徐 教授 的 话音 刚 落 ， 他 便道 出 了 他 的 理解 : “ 徐 老师 ， 
k-Means 算法 本 质 上 是 在 实现 聚 类 的 基本 思想 : 类 内 数据 点 越 近 越 好 ， 类 间 点 越 远 越 
好 的 尽 可 能 算法 。” 


“ 李 部 长 理解 得 完全 正确 ， 不 过 k-Means 人 了 一 个 优化 目标 
一 一 距离 之 和 最 小 ， 具 体 实现 一 般 使 用 如 PPT 图 示 的 迭代 算法 。” 


学 员 们 都 将 注意 力 集中 在 k-Means 算法 框图 上 ， 马 处 长 看 出 了 问题 : “ 徐 老师 ， 
k-Means 算法 事先 就 给 定 了 聚 类 的 个 数 k， 然 后 通过 办 代 过 程 将 数据 点 聚集 到 k 个 类 
中 去 。 但 是 ,一 般 情 况 我 们 并 不 知道 数据 点 可 以 聚集 成 多 少 个 类 。” 


“ 马 处 长 说 得 对 ，k-Means 算法 就 是 要 尝试 找 出 使 平方 误差 函数 值 最 小 的 k 个 划 
分 ,为 了 找 出 最 合适 的 聚 类 个 数 k， 一 般 要 用 若干 个 k 去 试验 ， 哪 个 k 最 后 得 到 的 距 
离 平方 和 最 小 ， 就 认为 哪个 k 是 最 佳 的 聚 类 个 数 。” 徐 教授 回答 说 。 
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李 部 长 问 道 : “ 徐 老师 ，k-Means 算法 第 (3) 步 中 的 聚 类 中 心 是 怎么 计算 的 ? ” 


“很 简单 ， 将 已 聚集 的 点 的 均值 作为 新 的 聚 类 中 心 。 这 正 是 这 种 聚 类 算法 成 为 
k-Means 算法 的 原因 。 如 果 以 各 聚 类 均值 点 最 近 的 点 为 聚 类 中 心 ， 其 他 步骤 不 变 ， 则 
k-Means 算法 就 变 为 k-Medoids 算法 了 。” 徐 教授 回答 道 。 


徐 教授 突然 冒 出 了 个 k-Medoids 算法 ， 又 被 李 部 长 的 双核 大 脑 捕 提 到 了 : “ 徐 老 
师 ，k-Medoids 算法 只 是 对 k-Means 算法 作 了 个 小 小 的 改变 ， 这 样 有 什么 作用 呢 ? ” 


徐 教授 笑 了 笑 ， 说 : “k-Medoids 算法 用 簇 中 最 靠近 中 心 的 一 个 对 象 来 代表 该 驴 ， 
而 k-Means 算法 用 质心 来 代表 簇 。 可 见 k-Means 算法 对 噪声 和 孤立 点 数据 非常 敏感 ， 
因为 一 个 离 群 值 会 对 质心 的 计算 带 来 很 大 的 影响 。 而 k-Medoids 算法 通过 用 中 心 点 来 
代替 质心 ， 可 以 有 效 地 消除 这 种 影响 。” 


听 徐 教授 这 么 一 解释 ， 李 部 长 又 大 发 感慨 : “真是 小 改变 ， 大 作用 啊 ! ” 


马 处 长 觉得 他 们 电力 行业 对 数据 挖掘 有 人 迫切 的 应 用 需求 , 非常 关注 算法 的 应 用 效 
果 ， 又 问 道 : “k-Means 算法 的 应 用 效果 怎么 样 ? ” 


徐 教授 : “ 当 结 果 簇 是 密集 的 ， 而 簇 与 簇 之 间 区 别 明 显 时 ，k-Means 算法 的 效果 
较 好 。 对 于 大 规模 数据 集 ， 该 算法 是 相对 可 扩展 的 ， 并 且 具 有 较 高 的 效率 。” 


李 部 长 不 仅 脑 子 转速 高 , 而 且 善 于 从 反面 思考 , 他 又 提出 了 一 个 问题 :“ 徐 老师 ， 
k-Means 算法 和 k-Medoids 算法 有 哪些 不 足 呢 ? ” 


徐 教 授 对 答 如 流 : “首先 ，k-Means 算法 和 k-Medoids 算法 只 有 在 复数 据点 的 平 
均值 有 定义 的 情况 下 才能 使 用 。 这 可 能 不 适用 于 某 些 应 用 , 例如 涉及 有 离散 属性 的 数 
据 。” 


还 没有 等 徐 教授 的 “其 次 ”出 口 ,一 直 只 听 不 说 的 华润 超市 的 万 总 ， 被 徐 教授 的 
这 句 话 触动 了 ， 道 出 了 他 们 数据 挖掘 时 遇 到 的 问题 : “k-Means 算法 和 k-Medoids 算 
法 一 般 适 用 于 连续 变量 ， 而 对 于 离散 属性 的 对 象 ， 例 如 两 本 书 ，A= 〈 小 说 ， 英 文 ， 
1/32 开本 ， 浙 江 大 学 出 版 社 ) ，B= (计算 机 图 书 ， 中 文 ，1/16 开本 ， 清 华 大 学 出 版 
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社 ) ， 就 无 均值 可 言 ， 当 然 无 法 使 用 这 两 种 算法 。 那 么 ， 对 于 含有 离散 属性 数据 的 聚 
类 问题 怎么 办 呢 ?” 


徐 教授 : “为 了 就 解决 这 类 问题 ， 人 们 对 k-Means 算法 进行 改进 ， 出 现 了 很 多 它 
们 的 变种 ， 例 如 ， 生 - 模 ”算法 用 “ 模 ” 代 替 簇 的 平均 值 ， 用 新 的 相 异 性 度量 方法 来 
处 理 分 类 对 象 , 用 基于 频率 的 方法 来 修改 聚 类 的 模 。 而 k-Means 算法 和 k- 模 算法 相 结 
合 ， 用 来 处 理 有 数值 类 型 和 分 类 类 型 属性 的 数据 ， 就 产生 了 “k- 原 型 ”算法 。” 


听 了 徐 教授 的 回答 , 万 总 非常 高 兴 :“k- 模 算法 和 -原型 算法 对 我 们 可 太 有 用 了 。 
徐 老师 ， 您 就 详细 给 我 们 讲 讲 k- 模 算法 和 -原型 算法 吧 ! ” 

徐 教授 看 了 看 手表 ， 说 道 : “ 按 教 学 计划 ， 这 部 分 是 大 家 课 后 学 习 内 容 ， 时 间 不 
多 了 ， 我 也 就 不 讲 了 。 你 们 下 去 自己 看 看 ， 有 问题 咱们 一 起 讨论 。” 


万 总 感到 有 些 遗 憾 ， 勉 强 说 : “好 吧 ， 我 们 课余 时 间 再 与 您 讨论 。 徐 老师 ， 对 不 
起 ， 刚 才 您 说 到 k-Means 算法 和 k-Medoids 算法 的 不 足 时 ， 我 冒昧 打 断 了 您 的 话 ， 您 
只 说 了 首先 ， 那 其 次 呢 ? ” 


徐 教授 : “其 次 ， 这 两 种 算法 不 适用 于 发 现 非 球状 的 簇 。 原 因 是 这 类 算法 使 用 距 
离 来 描述 数据 之 间 的 相似 性 , 但 是 , 对 于 非 球状 数据 集 ， 只 用 距离 来 描述 是 不 够 的 。” 

“ 那 遇 到 非 球状 的 聚 类 问题 可 怎么 办 呢 ? ”万 总 问 道 。 

徐 教 授 答 道 : “对 于 这 种 情况 ， 要 用 密度 来 代替 相似 性 设计 聚 类 算法 ， 这 就 是 基 
于 密度 的 聚 类 算法 即 Density-based Method。 基 于 密度 的 算法 从 数据 对 象 的 分 布 密度 出 
发 ， 把 密度 足够 大 的 区 域 连接 起 来 ， 从 而 可 以 发 现任 意 形状 的 徐 ， 而 且 此 类 算法 还 能 


李 部 长 已 经 沉默 了 好 长 时 间 ， 他 担心 万 总 又 有 什么 问题 影响 徐 教授 的 教学 进度 ， 
赶紧 插话 道 ， “ 徐 老师 ， 您 刚才 说 还 有 一 种 层次 方法 ， 这 种 聚 类 方法 的 思想 ……?” 


徐 教授 : “好 ， 我 现在 就 介绍 一 下 层次 方法 即 Hierarchical Method 的 基本 思想 。 
这 种 方法 按 数据 分 层 建立 通 , 形成 一 棵 以 簇 为 节点 的 树 。 如 果 自 底 向 上 进行 层次 聚集 ， 


= 


则 称 为 凝聚 的 《Aggalomerative》 层 次 了 类， 如 果 自 项 向 下 进行 层次 分 解 ， 则 称 为 分 
裂 法 (Divisive〉 的 层次 聚 类 。” 


徐 教授 润 了 涧 嗓子 ， 继 续 讲 道 : “凝聚 的 层次 聚 类 首先 将 每 个 对 象 作为 一 个 驴 ， 
然后 逐渐 合并 这 些 簇 形成 较 大 的 簇 ， 直到 所 有 对 象 都 在 同一 个 簇 中 , 或 者 满足 某 个 终 
止 条 件 。 分裂 的 层次 聚 类 与 之 相反 ， 它 首先 将 所 有 的 对 象 置 于 一 个 簇 中 ,然后 过 渐 划 
分 为 越 来 越 小 的 禾 ， 直 到 每 个 对 象 自 成 一 簇 ， 或 者 达到 了 某 个 终止 条 件 ， 例 如 达到 了 
某 个 希望 的 簇 数 目 ， 或 两 个 最 近 的 簇 之 间 的 距离 超过 了 一 定 的 六 值 。” 


李 部 长 一 直 认 真 听 着 , 不 断 地 点 头 表示 他 明白 了 层次 聚 类 的 思想 。 随 后, 他 提问 : 
“ 徐 老师 ， 层 次 聚 类 算法 有 什么 缺点 ? ” 


徐 教授 : “层次 方法 可 以 在 不 同 粒度 水 平 上 对 数据 进行 探测 ， 而 且 容 易 实现 相似 
度量 或 距离 度量 。 但 是 ,单纯 的 层次 聚 类 算法 的 终止 条 件 含糊 ， 而 且 执 行 合并 或 分 裂 
簇 的 操作 不 可 修正 ， 这 很 可 能 导致 聚 类 结果 质量 很 低 。 另外， 由 于 需要 检查 和 估算 大 
量 对 象 或 簇 才 能 决定 簇 的 合并 或 分 裂 ， 所 以 这 种 方法 的 可 扩展 性 较 差 。 因此， 通常 在 
解决 实际 聚 类 问题 时 要 把 层次 方法 与 其 他 方法 结合 起 来 。 层 次 方法 和 其 他 聚 类 方法 的 
有 效 结 合 可 以 形成 多 阶段 聚 类 ， 能 够 改善 聚 类 质量 。 这 类 方法 包括 BIRCH、CURE、 
ROCK、Chameleon 算法 等 ， 它 们 是 如 何 对 层次 聚 类 方法 进行 改进 的 、 具 有 什么 特点 
这 里 不 再 殉 述 ， 大 家 课 后 参阅 教材 。” 


其 实 , 李 部 长 对 这 些 经 典 的 聚 类 算法 在 他 主持 硅钢 纵 条 纹 质量 控制 问题 的 数据 挖 
据 方 法 研究 项 目 时 已 经 比较 熟悉 了 ,他 一 直 在 等 待 徐 教授 讲解 其 发 明 的 、 亭 誉 国际 的 
聚 类 算法 一 一 视觉 聚 类 算法 。 


他 看 了 一 下 手表 ， 过 二 十 多 分 钟 就 要 下 课 了 。 于 是 ， 李 部 长 迫不及待 地 说 : “ 徐 
老师 ， 您 刚才 讲 了 这 人 么 多 聚 类 方法 ， 我 发 现 它 们 有 一 个 共同 的 缺点 ， 就 是 算法 无 法 回 
答 数据 对 象 到 底 可 以 聚集 为 多 少 类 ， 据 说 你 们 研究 团队 发 明了 一 种 视觉 聚 类 算法 ， 很 
好 地 解决 了 这 一 问题 。 我 们 几 个 人 昨天 晚上 还 打赌 ,我 说 您 今天 肯定 会 讲 视觉 聚 类 算 
法 ， 可 都 快 下 课 了 ， 您 根本 没有 提 及 “视觉 ”两 字 。 我 们 都 等 不 及 了 ， 您 还 是 让 我 们 
大 家 欣赏 一 下 视觉 聚 类 的 神奇 魅力 吧 ! ” 


Es 
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说 到 视觉 聚 类 算法 ， 徐 教授 脸 上 露出 了 会 心 的 微笑 。 


虽然 都 连续 讲 了 快 两 个 小 时 了 ， 他 脸 上 的 倦 意 好 像 一 下 子 飞 到 了 九 霄 云 外 ,一 个 
洪亮 的 声音 激荡 着 教室 的 每 一 个 角落 : “同学 们 ， 我 并 不 是 为 我 们 的 视觉 聚 类 算法 得 
到 国际 上 的 高 度 评价 而 沾沾自喜 ， 作 为 一 个 科技 工作 者 ， 最 感到 自豪 的 莫 过 于 他 的 研 
究 成 果 在 国内 外 得 到 广泛 应 用 ， 为 社会 的 文明 、 进 步 作出 贡献 。” 

李 部 长 激动 了 : “ 徐 老师 ， 您 就 给 我 们 介绍 几 个 视觉 聚 类 算法 的 典型 应 用 吧 ! ” 

“好 的 , 请 看 大 屏幕 。 视觉 聚 类 算法 是 基于 我 们 所 建立 的 尺度 空间 理论 建立 的 ， 
运用 这 种 算法 可 以 对 卫星 传 回 的 原始 图 像 进行 分 析 ， 把 具有 相似 属性 的 事物 聚 到 同 
一 禾 中 ， 例 如 将 其 用 于 香港 地 区 地 表 高 精度 遥感 图 像 聚 类 、 混 杂 遥 感 图 像 中 线 状 目 
标 如 地 震 带 、 高 速 公路 、 机 场 跑 道 等 目标 识别 等 。” 


李 部 长 听 到 这 里 ， 激 动 得 跳 了 起 来 : “ 徐 老师 ， 看 来 视觉 聚 类 算法 有 可 能 用 于 我 
们 板材 表面 条 纹 、 夹 杂 、 重 皮 等 质量 问题 的 自动 检测 ， 我 们 试 试 吧 ! ” 


徐 教授 接着 说 : “ 李 部 长 的 联想 很 丰富 呀 ， 国 内 外 不 少 公司 已 经 将 这 种 方法 试 
验 过 了 。 美 国 乔治 亚 大 学 Lan 小 组 、 美 国 马里 兰 大 学 DeMenthon 小 组 、 中 科 环 境 与 
地 理 信 息 重点 实验 室 等 先后 将 视觉 聚 类 算法 用 于 地 理 数 据 的 图 像 处 理 ， 还 有 比利时 
Namur 大 学 著名 的 化 学 家 Leherte 教授 所 领导 的 实验 室 将 视觉 聚 类 算法 应 用 到 生物 
计算 ， 进 行 胃 和 蛋白酶 配合 体 的 匹配 、 分 子 电 流 密度 函数 、 蛋 白质 分 子 的 结构 表达 等 
研究 。” 


已 得 到 广远 应 用 : 


地 理 数 据 分 析 { 美 男 乔 党 亚 
太 学 Lan 小 组 》; 


图 像 处 理 [美国 蕊 里 兰 大 学 
Dementhon 小 级 ); 

蛋 让 项 盆 析 (比利时 Mamur 大 
学 Leherte 小 组 ); 

中 科 雨 卉 与 地 理 和 信息 合 点 实 
验 宝 GAMAX 系 统 ; 
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数据 挖 所 


马 处 长 : “ 徐 老师 ， 视 觉 聚 类 算法 可 太 有 用 了 ， 真 棒 ! ” 


徐 教授 非常 高 兴 : “不 谦虚 地 说 ， 视 觉 聚 类 算法 确实 有 其 独到 之 处 ， 其 基本 思 
想 非常 独特 ， 将 数据 集 看 作 图 像 ， 将 数据 建 模 问题 看 作 认 知 问题 ， 通 过 模拟 认 知 心 
理学 的 格式 塔 原理 与 生物 视觉 原理 解决 问题 。” 


“且慢 且慢 ， 什 么 是 格式 塔 原理 ? ” 李 部 长 打 断 了 徐 教授 的 话语 。 
徐 教授 翻动 了 一 下 PPT: “很 简单 ， 格 式 塔 原理 就 是 物体 的 整体 是 由 局 部 特征 
组 织 在 一 起 的 认 知 原则 ， 请 看 屏幕 。” 


认 知 心理 学 的 格式 塔 (Gestalt) 原 理 


AAA 


相似 率 


“我 们 将 相似 率 、 连 续 率 、 闭 合 率 、 近 邻 率 和 对 称 率 作 为 聚 类 的 基本 原则 ， 模 
拟人 的 眼睛 由 近 到 远 观 察 景物 的 过 程 设 计算 法 进行 聚 类 。 随 着 人 由 近 及 远 ， 也 就 是 
观察 尺度 由 小 变 大 ,所 看 到 的 景物 层次 会 逐渐 变化 ,实际 上 这 就 是 一 个 聚 类 的 过 程 。” 
徐 教授 边 说 边 翻 了 一 下 PPT。 
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李 部 长 听 得 如 醇 如 痴 ， 看 着 PPT 上 视觉 聚 类 的 示意 图 ， 突 然 ， 他 冒 出 了 一 个 新 
的 问题 ，“ 徐 老师 ， 我 明白 了 ， 在 近 处 ， 所 聚 的 类 会 很 多 ， 在 远 处 ， 所 聚 的 类 会 很 
少 ， 在 很 远 处 ， 所 看 到 的 东西 就 成 为 一 个 类 别 了 。 您 说 ， 到 底 聚 为 多 少 类 最 为 合适 
昵 ? ” 


徐 教授 点 了 点 头 : “ 李 部 长 的 双核 脑袋 就 是 转 得 快 ， 一 下 子 问 到 了 视觉 聚 类 的 
关键 。 随 着 尺度 o 由 小 变 大 ， 聚 类 的 个 数 在 发 生变 化 ， 但 会 出 现 尺 度 o 在 很 大 范围 
内 变化 、 而 聚 类 的 个 数 却 稳定 不 变 的 情况 。 这 个 聚 类 个 数 存活 周期 最 长 ， 它 就 是 最 
佳 的 聚 类 个 数 ! ” 

“ 太 妙 了 ， 视 觉 聚 类 理论 通过 引进 类 的 生存 寿命 概念 ， 给 出 了 类 的 认 知 定义 ， 
解决 了 聚 类 有 效 性 问题 。 数 学 上 严格 证 明了 结构 的 因果 性 即 类 的 演化 单调 性 ， 由 此 
形成 了 尺度 空间 聚 类 的 一 般 性 理论 框架 。” 李 部 长 流利 地 对 视觉 聚 类 进行 了 总 结 。 

徐 教授 对 李 部 长 的 话 感到 纳闷 : “ 李 部 长 ， 你 不 是 做 数据 挖掘 研究 的 ， 不 可 能 
给 出 这 么 深刻 的 总 结 吧 ! ” 


李 部 长 笑 了 笑 : “嘿嘿 ， 这 是 我 从 网 上 看 到 有 人 对 视觉 聚 类 方法 的 评价 。” 


下 课 铃 响 了 ， 徐 教授 边 合 上 电脑 边 说 ，“ 育 类 方法 我 们 就 简单 学 习 到 这 儿 ， 下 
一 节 课 咱们 一 起 讨论 数据 挖掘 非常 重要 的 内 容 一 一 预测 。” 


1.5.3 ”预测 


这 一 节 要 讲 预 测 ， 学 员 们 兴趣 一 然 ， 早 早 地 来 到 教室 。 
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徐 教授 走 上 讲台 : “今天 我 们 一 起 学 习 数 据 挖 掘 的 预测 方法 。” 


他 的 话 刚 一 停顿 ， 就 被 马 处 长 打 断 了 : “ 徐 老师 ， 税 务 局 的 姚 局 长 一 直 研究 周 
易 预测 ， 整 天 给 我 们 切切 他 料 事 如 神 ， 数 据 挖 气 预 测 与 周易 预测 有 什么 不 同 ， 哪 个 
更 厉害 ?” 


没有 想到 课堂 上 会 有 人 提出 这 样 的 问题 ， 徐 教授 灵机 一 动 说 : “ 姚 局 长 ， 那 你 
就 先 给 大 家 以 最 精辟 的 语言 介绍 一 下 周易 预测 吧 ! ” 


姚 局 长 站 起 来 ， 挠 着 头 : “其 实 周易 预测 也 是 一 门 科学 ， 马 处 长 、 李 部 长 这 些 
人 不 懂 还 刻 加 评论 ， 老 是 批判 我 。 徐 老师 ， 您 给 了 我 机 会 ， 我 得 给 周易 预测 正名 ! ” 


姚 局 长 越 说 越 激动 ， 徐 教授 示意 他 坐 下 慢 慢 说 。 


“周易 是 建立 在 阴阳 二 元 论 基础 上 ， 对 天 地 万 物 进 行 性 状 归 类 天 干 地 支 五 行 
论 ) ， 精 确 到 可 以 对 事物 的 未 来 发 展 做 出 较为 准确 的 预测 。 周 易 灵 验 的 预测 ， 千 百 
年 来 流传 ， 充 分 证 明 其 具有 强大 的 生命 力 。 其 实 世 俗 对 周易 一 直 存 有 误解 ， 比 如 从 
迷信 的 角度 去 解读 它 。 历 史上 有 许多 学 者 为 其 正名 ， 他 们 认为 周易 理论 依据 的 是 万 
事 万 物 的 相似 性 、 关 联 性 和 全 息 性 原理 。 这 三 个 原理 已 被 现代 科学 所 证 实 ， 希望 人 
人 都 能 理解 ， 千 万 不 要 挖苦 讽刺 。” 姚 局 长 一 边 说 ， 一 边 向 马 处 长 和 李 部 长 投 去 挑 
战 的 目光 。 

徐 教授 发 现 马 处 长 准备 站 起 来 反击 ,急忙 以 手势 示意 他 坐 下 。 “其实 自古 以 来 ， 
确实 有 太 多 的 伪 周 易 天 污 了 科学 的 周易 。 姚 局 长 和 马 处 长 实际 上 都 是 科学 周易 阵线 
的 斗士 ， 但 你 俩 却 内 订 起 来 了 ! ” 

马 处 长 马上 反应 了 过 来 : “说 来 也 是 ， 姚 局 长 高 举 科 学 周易 的 大 旗 ， 我 打 着 反 
击 伪 科学 周易 的 旗帜 ， 我 们 本 该 就 是 一 家 人 ! ”说 着 ， 马 处 长 将 手 伸 向 了 姚 局 长 。 


这 时 ， 姚 局 长 又 站 了 起 来 ， 大 胆 地 讲 到 : “实际 上 ， 我 们 要 辩证 地 看 待 周 易 ， 
要 以 批判 继承 的 观点 对 待 周易 。 周 易 在 一 定 程度 上 揭示 和 描述 了 宇宙 万 事 万 物 运 动 
变化 发 展 的 内 在 规律 。 如 果 万 事 万 物 不 存在 相似 性 、 关 联 性 和 全 息 性 ， 周 易 预测 就 
是 不 可 能 的 。 全 息 性 是 周易 预测 所 依据 的 又 一 重要 原理 ， 科 学 已 经 证 明了 全 息 性 的 
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存在 。” 


李 部 长 也 拱 上 了 话 : “是 的 ， 美 国 科 学 家 做 过 这 样 的 实验 ， 用 一 架 特制 的 全 息 
照相 机 对 一 棵 树苗 进行 拍照 ， 拍 到 了 一 棵 大 树 的 照片 ， 后 来 这 棵 树苗 长 大 以 后 正好 
和 这 棵 大 树 的 照片 相 吻合 。” 


听 到 李 部 长 也 开始 支持 他 了 ， 姚 局 长 更 起 劲 了 : “考古 工作 者 对 一 颗 牙 齿 进行 
化 验 ， 得 出 了 古人 的 身高 等 许多 数据 。 法 医 工作 者 对 一 根 毛 发 进行 化 验 ， 得 出 了 死 
者 或 者 罪犯 的 许多 特征 。 这 说 明 事物 的 某 一 局 部 包含 了 其 整体 的 信息 。 这 就 是 现代 
科技 所 证 实 了 的 全 息 论 。 记 以 其 预测 的 理论 根据 是 科学 的 ， 几 千年 的 实践 检验 已 经 
证 明了 这 点 。” 


用 余 光 瞄 了 瞄 同 排 的 专注 倾听 的 学 员 后 ， 姚 局 长 受到 鼓舞 ， 接 着 说 : “可 是 现 
在 有 人 硬 要 把 周易 预测 说 成 是 迷信 ， 那 是 既 不 懂 周 易 又 不 懂 科 学 的 表现 ， 是 很 浅 注 
的 ， 还 有 人 认为 周易 很 神秘 ， 科 学 解释 不 通 ， 这 也 是 不 懂 科 学 的 表现 。 周 易 本 身 是 
科学 ， 古 老 的 周易 与 现代 科学 是 相通 的 ， 是 血脉 相 承 的 。” 


姚 部 长 的 一 到 段 话 , 激 起 了 全 班 一 阵 热烈 的 掌声 , 结束 了 EMBA 班 自 开学 以 来 
对 周易 的 激战 。 


徐 老 师 觉得 是 引进 数据 挖掘 的 预测 概念 的 时 候 了 ， 于 是 说 : “数据 挖掘 的 预测 
是 周易 预测 的 继承 与 发 展 。 周 易 预 测 首先 要 了 解 事物 的 属性 即 状态 信息 ， 在 利用 以 
往 已 经 获得 的 事物 间 的 相似 性 和 关联 性 ， 对 事物 的 未 来 状况 作出 判断 。 实 际 上 这 种 
相似 性 和 关联 性 就 是 对 历史 事件 的 学 习 而 积累 的 经 验 。 而 数据 挖掘 预测 则 是 通过 对 
反映 了 事物 输入 与 输出 之 间 的 关联 性 〈 即 内 在 规律 的 历史 数据 ) 的 学 习 ， 得 到 预测 
模型 ， 再 利用 该 模型 对 未 来 数据 进行 预测 的 过 程 。” 


马 处 长 对 徐 教授 所 讲 的 内 容 感到 疑惑 不 解 ， 大 声 请 求 道 : “ 徐 老师 ， 您 讲 得 太 
深奥 了 ， 能 不 能 再 具体 地 描述 描述 数据 挖掘 预测 的 过 程 ? ” 

徐 教授 将 PPT 翻 到 新 的 一 页 ,说 道 :“ 数 据 挖掘 预测 的 基本 原理 是 黑箱 子 模型 ， 
即将 事物 输入 与 输出 之 间 的 关系 不 管 其 多 么 复杂 , 均 当 做 一 个 黑箱 子 , 以 往 的 输入 、 


汪汪 


数据 挖 所 


输出 数据 是 这 个 黑箱 子 内 复杂 规律 的 反映 。 通 过 数据 挖掘 的 机 器 学 习 方法 ， 建 立 黑 
箱子 模型 来 预测 未 来 的 输入 数据 所 对 应 的 输出 数据 。” 


人 


预测 方法 机 理 模 型 。 在 透彻 阐述 事物 变化 机 

理 基 础 上 的 建 模 ， 模型 描述 因 变 

re 数据 (D 是 与 息 二村 作 用 机 演 与 安 化 

人 Deayah vec 本 数据 (Data) 律 【 如 火箭 飞行 罗 述 与 动 万 ”引力 
的 关系 ) 。 

A 障碍 : 建 异 中 ， 近 似 是 必 须 的 《不 

y=(%, 户 = 长 型 model) 准确 性 ) ， 太 复杂 ， 无 从 下 手 〔 见 

me 


不 了 模 》 
机 器 学 习 (MachineLearning) 


y= OS 


新 的 | 六 
y 是 离散 的 ， 如 {-1,1}),{0,1,2} 为 分 类 问题 
Y 是 连续 的 ， 抗 拉 强 度 等 为 回归 问题 


“ 慢 点 慢 点 ， 徐 老师 ， 什 么 是 机 器 学 习 ? ” 马 处 长 捕捉 到 了 一 个 新 名 词 ， 急 忙 
问 道 。 


徐 教授 早已 预料 到 有 人 会 问 这 样 的 问题 ， 不 紧 不 慢 地 说 道 : “假定 事物 的 输入 、 
输出 之 间 存在 一 种 函数 关系 y=f (%B》， 其 中 x 是 待定 参数 ，y=f G.8 7 称 为 学 习 机 
器 。 通 过 数据 建 模 ， 和 pb, ead 
式 y=f (%B》， 于 是 便 可 以 对 新 的 x 预测 x 了。 这 样 的 过 程 称 为 机 器 学 习 。 


“ 徐 老师 ， 我 只 听 说 过 数学 建 模 ， 您 刚才 提 到 数据 建 模 是 什么 意思 ? ” 姚 部 长 
也 提出 了 一 个 问题 。 


“数据 建 模 就 是 基于 数据 建立 数学 模型 ， 它 是 相对 于 基于 物理 、 化 学 和 其 他 专 
业 基 本 原理 建立 数学 模型 〈 即 机 理 建 模 ) 而 言 的 。 对 于 预测 来 说 ， 如 果 所 研究 的 对 
象 有 明晰 的 机 理 ， 可 以 依 其 进行 数学 建 模 ， 这 当然 是 最 好 的 选择 。 但 是 ， 我 们 经 常 
会 遇 到 很 多 实际 问题 ， 如 社会 学 问题 、 金 融 问题 、 复 杂工 业 过 程 问题 和 生物 医学 问 
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题 等 ， 不 适合 以 某 种 机 理 来 描述 ， 从 而 无 法 进行 机 理 建 模 。 但 如 果 积 累 有 足够 的 历 
史 数 据 ， 这 时 ， 数 据 建 模 就 可 大 显 身 手 了 。” 


受 徐 教授 的 启发 ， 学 员 们 纷纷 谈论 其 本 行业 的 情况 。 


李 部 长 深 有 感触 地 说 : “ 治 金工 业 是 极其 复杂 的 流程 化 生产 过 程 ， 各 个 工序 对 
产品 质量 都 有 影响 ， 尤 其 是 产品 表 观 质量 问题 (如 冷 轧 板 重 皮 、 夹 杂 、 侧 翻 和 硅钢 
纵 条 纹 等 缺陷 ) 根本 无 法 建立 机 理 模 型 。 不 过 ， 冶 金 生产 自动 化 程度 很 高 ， 数 据 积 
累 非 常 丰富 ， 为 数据 建 模 提供 了 良好 的 基础 。” 


李 部 长 的 话 也 引起 了 马 处 长 的 共鸣 : “在 我 们 电力 行业 ,设备 状态 及 寿命 评估 、 
负荷 预测 、 电 力 暂 态 稳定 性 分 析 、 电 力 系统 规划 等 诸多 问题 都 难于 进行 机 理 建 模 ， 
机 器 学 习 可 以 发 挥 重大 作用 了 。” 


铁路 局 的 高 副 局 长 也 开 了 口 : “在 我 们 铁路 部 门 ， 高 铁 的 轨道 检测 、 交 通 流量 
预测 、 铁 路 票 价 制定 、 调 度 优 化 等 ， 均 可 以 用 机 器 学 习 的 方法 解决 啦 ! ” 


税务 局 赵 局 长 也 忍 不 住 了 : “好 啊 ， 税 务 稽查 也 有 数据 挖掘 这 把 利器 了 ! ” 


航天 研究 院 的 黄 主 任 接着 说 : “说 起 机 器 学 习 ， 我 这 里 有 个 非常 典型 的 实例 跟 
大 家 分 享 ， 就 是 关于 劳动 定额 的 预测 。 以 某 飞 机 零 部 件 生产 加 工 为 例 ， 通 过 分 析 历 
史 数 据 中 的 加 工 宽度 、 加 工 直径 、 加 工 深度 和 劳动 定额 之 间 的 关系 ， 最 终 建立 起 各 
加 工 尺 十 和 劳动 定额 的 BP 神经 网 络 回归 预测 模型 。 经 过 对 模型 的 效果 分 析 评 估 ， 
我 们 将 此 模型 固化 应 用 在 实际 生产 中 几 个 月 后 ， 发 现 此 模型 预测 准确 率 高 达 
99.21%， 帮 助 企 业 节 省 了 大 量 的 收集 数据 的 经 济 和 时 间 成 本 。 更 具 现 实意 义 的 是 ， 
将 得 到 的 劳动 定额 制度 在 企业 的 生产 中 组 织 贯 彻 ， 并 采取 有 关 的 技术 组 织 措施 ， 如 
竞赛 、 技 术 培训 、 动 作 分 析 、 定 额 考 核 等 ， 能 帮助 职工 达到 和 不 断 突破 现行 劳动 定 
额 。 根 据 职工 完成 定额 的 情况 进行 分 析 ， 管 理 者 亦 能 发 现 定额 管理 中 存在 的 问题 并 
加 以 解决 。” 


工行 的 张 行 长 显得 非常 平静 ， 慢 条 斯 理 地 说 : “其 实 ， 我 们 已 经 开始 尝试 利用 
机 器 学 习 的 方法 进行 信用 评价 、 贷 款 风险 评估 和 反 洗 钱 等 工作 ， 希 望 徐 教授 和 其 他 
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学 员 不 音 指教 。” 


移动 公司 梁 总 显得 有 点 得 意 ， 喜 形 于 色 地 说 : “我 们 公司 两 年 前 就 开始 应 用 数 
据 挖 掘 解决 电信 业 面 临 最 紧迫 的 四 大 问题 : 市 场 分 群 、 精 确 营销 、 新 业务 响应 和 客 
户 流失 分 析 等 。 这 四 大 问题 最 本 质 的 还 是 预测 问题 ， 我 们 已 经 总 结 出 了 比较 成 功 的 
解决 方案 ， 有 机 会 邀请 徐 教授 给 我 们 指导 指导 。” 


“好 的 ， 大 家 都 讲 了 很 多 了 。 预 测 未 来 趋势 和 行为 ， 使 得 行动 目标 更 具有 前 瞻 
性 ， 并 作出 具有 知识 驱动 的 决策 ， 是 每 一 个 行业 的 共同 希望 ， 但 愿 数 据 挖掘 的 机 器 
学 习 方法 能 使 大 家 以 后 的 工作 如 虎 添 愤 。” 徐 教授 总 结 道 。 

马 处 长 估计 徐 教授 下 面 要 讲 具 体 的 机 器 学 习 方 法 了 ， 和 急忙 建 议 说 : “ 徐 老师 ， 
机 器 学 习 的 数学 模型 和 求解 算法 很 多 ， 而 且 新 方法 层出不穷 ， 在 应 用 中 让 人 难以 选 
择 ， 您 就 给 我 们 讲解 一 些 实用 而 先进 的 方法 吧 。” 


徐 教授 没有 回答 马 处 长 的 话 ， 只 是 轻 轻 点 了 一 下 鼠标 ， 几 种 典型 的 机 器 学 习 方 
法 在 屏幕 上 跃然 而 入 。 
决策 树 方法 
人 工 神经 网 络 


支撑 向 量 机 
正则 化 方法 


(1) 决策 树 方法 


徐 教授 的 PPT 又 翻 开 了 新 的 一 页 ， 他 将 光 笔 指向 屏幕 上 的 树 状 图 ， 讲 道 : “所 
谓 决策 树 就 是 一 个 类 似 流 程 图 的 树 型 结构 ， 树 的 最 高 层 结 点 就 是 根 结 点 ， 树 的 每 个 


内 部 结 点 代表 对 一 个 属性 〈 取 值 ) 的 测试 ， 其 分 支 代表 测 试 的 每 个 结果 ， 而 树 的 每 
个 叶 结 点 代表 一 个 类 别 。 从 根 节 点 到 叶子 节点 的 每 一 条 路 径 构成 一 条 


“IF…THEN.…” 分 类 规则 。 尝 
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诀 策 树 分 类 (Decision Tree) 


信息 增益 ,信息 增益 比 等 人 


李 部 长 凝视 着 大 屏幕 上 的 决策 树 ， 明 白 了 其 中 的 奥妙 ， 不 禁 说 道 ， “决策 树 方 
法 实际 上 就 是 通过 一 定 的 评判 策略 判定 哪 一 个 属性 对 分 类 最 为 重要 ， 就 将 其 作为 根 
节点 ， 然 后 再 判断 余下 的 节点 中 最 重要 的 节点 ， 直 到 叶子 节点 。” 


“好 ， 理 解 得 还 比较 透彻 。 不 过 ， 李 部 长 ， 什 么 样 的 节点 才 可 以 标注 为 叶子 节 
点 呢 ? ” 徐 教授 问 。 


李 部 长 层 叶 喇 唔 :， “好 像 有 三 种 情况 ……?” 


“对 ,符合 以 下 三 个 条 件 之 一 的 节点 就 可 为 叶子 节点 : (1) 节点 的 样本 集合 中 
所 有 样本 都 属于 同一 类 ; (2) 节点 的 样本 集合 中 所 有 的 局 性 都 已 经 处 理 完毕 ， 没有 
剩余 属性 可 以 用 来 进一步 划分 样本 ， 这 时 候 采用 子 集中 多 数 样本 所 属于 的 类 来 标记 
该 节点 ; 〈3) 节点 的 样本 集合 中 所 有 样本 的 剩余 属性 取 值 完全 相同 ， 但 所 属 类 别 却 
不 同 ， 此 时 用 样本 中 多 数 类 来 标示 该 节点 。” 


= 湖 二 = 


徐 教授 接着 说 :“ 决 策 树 算法 的 典型 代表 是 ID3 (Interactive Dicremiser version 3) 
算法 ， 它 是 由 Quinlan 等 人 于 1986 年 提出 的 ， 是 当时 机 器 学 习 领域 中 最 有 影响 力 的 
算法 之 一 ,其 核心 思想 是 在 决策 树 的 构建 过 程 中 采取 基于 信息 增益 的 特征 选择 策略 ， 
即 选取 具有 最 高 信息 增益 的 属性 作为 当前 节点 的 分 裂 属 性 ， 使 得 对 结果 划分 中 的 样 
本 分 类 所 需要 的 信息 量 最 小 。 以 此 构造 与 训练 数据 一 致 的 一 棵 决策 树 ， 从 而 保证 了 
决策 树 具 有 最 小 的 分 支 数 量 和 最 小 的 元 余 度 。” 


李 部 长 : “ID3 算法 思想 简单 ， 并 且 由 其 构造 的 决策 树 对 样本 的 识别 率 比 较 高 。 
在 实际 应 用 中 ，ID3 算法 有 什么 不 足 之 处 吗 ? ” 

徐 教授 按 了 一 下 光 笔 ， 并 说 : “请 看 大 屏幕 ID3 算法 的 缺点 主要 表现 在 以 下 几 
个 方面 。” 


ID3 算法 的 不 足 之 处 


(1) ID3 算法 在 搜索 过 程 中 不 能 回溯 重新 考虑 选择 过 的 属性 ， 从 而 收敛 到 局 部 
最 优 解 而 不 是 全 局 最 优 解 ; 


(2) 信息 增益 的 度量 偏 祖 于 属性 取 值 数目 较 多 的 属性 ， 这 不 太 合 理 ; 


(3) ID3 算法 只 能 处 理 离散 值 的 属性 ， 不 能 处 理 连续 属性 ; 


(4) 当 训 练 样本 过 小 或 者 包含 有 噪声 的 时 候 ， 容 易 产生 过 度 拟 和 (Overfitting) 
现象 。 


马 处 长 看 着 屏幕 ， 问 道 : “ 徐 老师 ， 那 怎样 改进 ID3 算法 呢 ?”” 


徐 教授 回答 道 : “针对 ID3 算法 的 不 足 ，Quinlan 于 1993 年 提出 了 ID3 的 改进 
方法 一 一 C4.5。 与 ID3 相 比 ，C4.5 主要 在 以 下 几 个 方面 作 了 修改 ， 并 且 引进 了 新 的 
功能 : 用 信息 增益 比率 作为 选择 标准 ， 弥 补 了 ID3 算法 偏向 于 取 值 较 多 的 属性 的 不 
足 ; 合并 连续 属性 的 值 ， 可 以 处 理 具 有 缺少 属性 值 的 训练 样本 : 运用 不 同 的 剪 枝 技 
术 来 避免 决策 树 的 过 拟 合 现象 ，K 次 交叉 验证 等 。” 


李 部 长 又 问 : “ 徐 老师 ， 我 们 在 使 用 决策 树 算法 进行 分 类 时 ， 有 时 会 出 现 过 拟 
合 现象 ， 这 是 怎么 回 事 呢 ? ” 


二 同和 
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徐 教授 不 厌 其 烦 : “基本 的 决策 树 构造 算法 没有 考虑 噪声 ， 因 此 生成 的 决策 树 
可 以 完全 与 训练 数据 拟 合 ， 也 就 是 说 ， 对 训练 数据 的 测试 准确 度 可 以 达到 100%。 
但 是 在 有 了 噪声 的 情况 下 ， 完 全 拟 合 将 导致 “过 拟 合 ”的 结果 ， 即 对 训练 数据 的 完全 
拟 合 反 而 导致 对 新 数据 的 预测 能 力 下 降 。 这 是 因为 当 训练 数据 集合 包含 噪声 时 ， 决 
策 树 在 生成 的 过 程 中 为 了 与 训练 数据 一 致 ， 必 然 生 成 了 一 些 反 应 噪声 的 分 支 ， 这 些 
分 支 不 仅 可 能 在 新 的 决策 问题 中 导致 错误 的 预测 ， 而 且 增加 了 模型 的 复杂 度 。” 


马 处 长 也 问 道 : “ 那 怎么 避免 过 拟 合 现象 呢 ?” 


徐 教授 : “解决 决策 树 生成 过 程 中 的 过 拟 合 问题 的 方法 主要 是 对 决策 树 进 行 前 
枝 。 剪 枝 是 一 种 克服 噪声 的 技术 ， 它 有 助 于 提高 决策 树 对 新 数据 的 准确 分 类 能 力 ， 
同时 能 使 决策 树 得 到 简化 ， 使 其 更 容易 理解 ， 加 快 分 类 速度 。 剪 枝 策略 可 分 为 预 剪 
枝 〈pre-pruning) 和 后 剪 枝 〈post-pruning) 两 种 。 预 剪 枝 主要 是 通过 建立 某 些 规则 
限制 决策 树 的 充分 生长 ， 后 剪 枝 则 是 等 决策 树 充分 生长 完毕 后 再 前 去 那些 不 具有 一 
般 代 表 性 的 叶 节 点 或 者 分 枝 。 尽 管 前 一 种 方法 可 能 看 起 来 更 直接 ， 但 是 后 一 种 方法 
在 实践 中 更 成 功 。 因 此 在 实际 运用 中 更 多 的 采用 后 剪 枝 技 术 。” 


(2) 人 工 神经 网 络 


徐 教授 的 PPT 翻 到 了 新 的 一 页 ,一 个 人 脑 结构 图 和 密密麻麻 的 结构 图 跃 入 屏幕 。 
他 用 光 笔 指 着 图 讲 到 : “人 工 神经 网 络 ，Artificial Neural Networks， 简 写 为 ANNs， 
是 对 人 脑 若 干 基本 特性 的 抽象 。 它 由 大 量 神经 元 通过 丰富 的 连接 构成 多 层 网 络 ， 用 
以 模拟 人 脑 功能 。” 
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“还 能 模拟 人 头脑 的 功能 ， 这 么 厉害 ? ”有 人 感到 不 可 思议 。 
“实际 上 ， 神 经 网 络 只 是 个 不 依赖 于 模型 的 自 适应 函数 估计 器 ， 可 以 实现 任意 
的 函数 关系 。” 徐 教授 补充 道 。 
“ 那 也 就 是 说 ， 人 工 神经 网 络 是 一 种 机 器 学 习 方 法 ， 也 可 以 对 求解 分 类 和 回归 
问题 进行 预测 。” 马 处 长 道 出 了 自己 的 理解 。 


“更 有 用 的 是 , 定量 或 定性 的 信息 都 可 贮存 于 网 络 内 的 各 神经 元 中 。 也 就 是 说 ， 
它 可 以 同时 处 理 定量 、 定 性 知识 。 而 且 网 络 有 很 强 的 稳定 性 和 容错 性 。” 徐 教授 补 
充 道 。 


(3) 支撑 向 量 机 


“支撑 向 量 机 , Support Vector Machines, 简称 SVM, 是 20 世纪 90 年 代 Vapnik 
等 人 根据 统计 学 习 理 论 中 结构 风险 最 小 化 原则 提出 的 一 种 机 器 学 习 方 法 。” 徐 教授 
说 。 

“ 它 用 来 解决 分 类 问题 还 是 回归 问题 ? ” 马 处 长 问 道 。 


“ 既 可 以 求解 分 类 问题 ， 也 可 以 用 于 回归 问题 。 但 是 ， 起 初 是 从 分 类 问题 建 模 
的 ， 后 来 又 拓展 到 求解 回归 问题 。” 徐 教授 回答 道 。 


“ 徐 老师 ， 听 我 们 单位 去 年 来 的 博士 小 施 说 ， 支 撑 向 量 机 用 处 太 大 了 。 您 就 深 
入 浅 出 地 介绍 一 下 其 建 模 原 理 吧 。” 


“支撑 向 量 机 是 从 线性 可 分 的 二 分 类 问题 开始 建 模 的 ， 再 逐步 向 线性 不 可 分 问 
题 、 非 线性 问题 深入 ， 最 后 推广 到 线性 和 非 线 性 回归 问题 建 模 。” 


“ 那 您 就 从 最 简单 的 、 线 性 可 分 的 二 分 类 问题 讲 起 吧 。” 马 处 长 建议 说 。 


“好 吧 。 请 看 屏幕 ， 对 了 ， 不 是 手机 屏幕 ， 是 投影 屏幕 。” 徐 教授 这 么 一 说 ， 
玩弄 手机 的 学 员 不 好 意思 地 将 手机 藏 了 起 来 。 


第 1 章 揭 开 数据 挖掘 的 面纱 


“图 中 ， 方 形 点 和 圆 形 点 代表 

两 类 样本 ,HH 为 分 类 线 ，H1、H2 . 
分 别 为 通过 各 类 中 高 分 类 线 最 近 的 
样本 且 平 行 于 分 类 线 的 直线 ， 它 们 
之 间 的 距离 叫做 分 类 间隔 
Cmargin) 。 所 谓 最 优 分 类 线 就 是 
要 求 分 类 线 不 但 能 将 两 类 正确 分 
开 ， 而 且 使 分 类 间隔 最 大 。 推 广 到 
高 维 空间 ， 最 优 分 类 线 就 是 最 优 分 
类 面 。” 


“之 所 以 要 求 得 分 类 间隔 最 大 的 最 优 分 类 面 是 为 了 对 未 来 的 新 样本 预测 得 更 准 
确 。” 李 部 长 早已 对 SVM 很 熟悉 了 ， 补 充 说 。 


“对 这 一 问题 ， 前 苏联 人 Vapnik 等 人 于 1995 年 建立 了 以 分 类 间隔 最 大 化 为 目 
标 ， 以 分 类 面 将 样本 全 部 区 分 正确 为 约束 条 件 的 二 次 优化 模型 。” 徐 教授 说 。 


“对 这 个 模型 进行 怎样 的 改变 ， 就 可 以 处 理 线性 不 可 分 问题 ? ” 马 处 长 动 了 脑 


“只 要 将 约束 条 件 放宽 为 “允许 分 错 ” 就 行 了 。” 徐 教授 回答 说 。 

“对 于 分 类 面 为 曲面 的 分 类 问题 ， 怎 么 处 理 ? ” 马 处 长 又 问 。 

“通过 引进 该 函数 ， 进 行 非 线性 变换 ， 将 输入 数据 变换 到 一 个 高 维 空间 ， 在 这 
个 高 维 空间 里 ， 原 来 低 维 空间 的 曲面 ， 变 成 了 平面 ， 就 可 求解 最 优 分 类 超 平面 的 方 
法 了 。” 徐 教授 回答 道 。 

“ 妙 ， 实 在 是 妙 ! 复杂 的 非 线性 分 类 问题 线性 化 了 。” 马 处 长 感慨 道 。 

“不 过 ， 上 研究 生 的 时 候 ， 跟 着 导师 搞 课 题 ， 曾 经 遇 到 过 二 次 规划 问题 ， 几 十 
个 变量 、3000 多 条 数据 ， 双 核电 脑 就 跑 不 动 了 。 支 撑 向 量 机 模型 求解 可 能 会 遇 到 麻 
烦 。” 马 处 长 问题 连连 。 
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| 大话 医 二 二 尖 


徐 教 授 回答 道 : “曾经 ， 这 确实 是 个 问题 ，1998 年 ， 微 软 研究 院 的 John C. Platt 
提出 了 最 快 的 求解 二 次 规划 的 SMO 算法 ， 这 一 问题 迎刃而解 。” 


马 处 长 又 问 道 : “后 来 怎么 将 这 向 量 机 扩展 为 可 求解 回归 问题 ? ” 


“这 就 更 加 奥妙 了 ，“ 不 敏感 损失 函数 ” 功 不 可 没 。” 徐 教授 叹 道 。 
“什么 是 不 敏感 损失 函数 ? ” 马 处 长 感到 莫名 其 妙 。 


一 三 O 三 


徐 教授 回答 道 : “损失 函数 就 是 衡量 回归 结果 与 真实 值 相 差 大 小 的 一 种 函数 。 
不 敏感 损失 函数 定义 为 绝对 误差 ， 即 回归 结果 与 真实 值 之 差 的 绝对 值 ， 小 于 一 定 的 
值 es 时， 就 认为 回归 函数 对 预测 没有 造成 损失 ， 否 则 损失 就 为 其 绝对 误差 。” 


徐 教授 接着 道 ; “通过 不 敏感 损失 函数 ， 将 样本 点 分 成 了 绝对 误差 小 于 s 和 大 
于 s 两 类 ， 这 样 就 可 以 用 分 类 方法 建立 支撑 向 量 机 回归 模型 了 。” 


“ 妙 ， 妙 ， 更 加 的 妙 ! ” 马 处 长 道 。 
“那么 支撑 向 量 机 有 什么 优势 呢 ? ” 台 下 有 人 问 。 


“ 它 在 解决 小 样本 、 非 线性 及 高 维 模式 识别 问题 中 表现 出 许多 特有 的 优势 。 
SVM 建立 在 计算 学 习 理论 的 结构 风险 最 小 化 原则 之 上 , 具有 简洁 的 数学 形式 ， 能 ; 
行 直观 的 几何 解释 ， 并 具有 良好 的 泛 化 能 力 ， 避 免 了 局 部 最 优 解 ， 且 需要 人 为 设 定 


-46- 


第 1 章 ， 揭 开 数 据 挖掘 的 面纱 


的 参数 少 ， 便 于 使 用 ， 为 小 样本 机 器 学 习 提供 了 一 种 新 方法 。” 徐 教授 说 。 

(4) 正则 化 方法 

“现在 ， 我 们 简单 了 解 一 下 机 器 学 习 的 一 种 新 方法 一 一 正则 化 方法 。” 徐 教授 

“神经 网 络 和 支撑 向 量 机 方法 不 是 很 好 嘛 ? ” 马 处 长 提出 了 疑 意 。 

“是 的 ， 神 经 网 络 和 支撑 向 量 机 方法 是 应 用 比较 普遍 的 机 器 学 习 方法 。 但 各 种 
方法 都 有 其 优 缺 点 。” 徐 教授 解释 道 。 

“那么 神经 网 络 有 什么 不 足 ? ”一 学 员 问 。 

“神经 网 络 容易 陷入 局 部 极 小 点 ， 易 出 现 “ 过 拟 合 ” 而 使 得 泛 化 能 力 较 差 ， 而 
且 网 络 拓扑 结构 的 确定 没有 成 熟 的 理论 指导 ; 神经 网 络 训练 代价 很 高 ， 其 解 不 具有 
稀 朴 性 和 且 难 以 解释 。” 徐 教授 如 数 家 珍 地 说 。 

“支撑 向 量 机 也 有 很 多 缺点 吗 ? ” 那 位 学 员 接着 问 道 。 

“支撑 向 量 机 方法 是 在 机 器 学 习 理论 指导 下 专门 针对 有 限 样本 设计 的 学 习 方 
法 ， 不 仅 对 于 小 样本 问题 可 以 得 到 最 优 解 ， 而 且 SVM 模型 具有 很 强 的 泛 化 能 力 。 
更 为 突出 的 是 SVM 最 终 转化 为 求解 一 个 凸 二 次 规划 问题 ， 在 理论 上 可 以 得 到 全 局 
最 优 解 ， 克 服 了 一 些 传统 方法 (如 神经 网 络 方法 ) 可 能 会 陷入 局 部 极 值 的 不 足 。 虽 
然 支 撑 向 量 机 与 神经 网 络 相 比 有 着 明显 的 优势 , 当 在 实际 应 用 中 还 存在 着 一 些 问题 ， 
比如 对 于 太 大 规模 的 数据 集 ， 由 于 SVM 要 解 凸 二 次 规划 而 使 算法 效率 很 低 ， 甚 至 
算法 无 法 进行 ，SVM 对 奇异 值 的 稳健 性 不 高 ， SVM 的 解 不 具有 稀疏 性 ， 存 在 着 大 
量 元 余 支 撑 向 量 等 ， 更 令 人 感到 美中不足 的 是 参数 没有 好 的 选择 策略 。 这 些 不 利 因 
素 限制 了 SVM 在 一 些 领域 的 应 用 。” 

徐 教授 一 口气 把 支撑 向 量 机 的 优 缺 点 对 比 得 清 清楚 楚 。 

“ 徐 老师 ， 看 来 您 还 会 给 我 们 介绍 更 好 的 机 器 学 习 方法 。” 马 处 长 猜测 道 。 
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“近年 来 ， 正 则 化 方法 得 到 了 机 器 学 习 研 究 者 的 广泛 关注 ， 人 们 提出 了 不 少 满 
足 不 同性 能 要 求 的 基于 正则 化 的 框架 模型 , 其 典型 代表 有 Lasso 模型 和 推广 的 Lasso 
模型 、L1/2 正则 化 模型 及 其 欠 代 阔 值 算法 等 。” 徐 教授 介绍 说 。 


“这 些 模 型 与 神经 网 络 和 支撑 向 量 机 比 ， 有 什么 优势 ? ” 马 处 长 问 。 


“由 于 Lasso 方法 用 模型 系数 的 绝对 值 函数 作为 惩罚 来 压缩 模型 系数 ， 使 绝对 
值 较 小 的 系数 自动 压缩 为 0， 这 样 得 到 的 模型 具有 稀疏 性 ， 从 而 同时 实现 显著 性 变 
量 的 选择 和 对 应 参数 的 估计 。” 徐 教授 讲 道 。 

“ 徐 老师 ， 我 听 您 说 过 ，Lasso 模型 采用 平方 损失 函数 而 使 其 稳健 性 较 差 ， 而 
且 在 很 多 应 用 场合 〈 例 如 分 类 问题 ) 损失 函数 不 宜 采 用 平方 损失 ， 这 就 使 得 Lasso 
模型 的 应 用 受到 限制 。” 李 部 长 回忆 道 。 

“因此 我 们 对 Lasso 模型 进行 推广 ， 使 推广 后 的 Lasso 模型 可 以 使 用 其 他 损失 
函数 ， 并 可 应 用 于 回归 问题 和 分 类 问题 。” 徐 教授 回应 道 。 


“Lasso 模型 和 推广 后 的 Lasso 模型 都 属于 Ll1 正则 化 模型 ， 用 什么 算法 求解 比 
较 好 ? ” 李 部 长 又 问 。 

“这 两 类 模型 是 凸 优化 问题 ， 有 很 多 算法 可 以 求解 ， 但 梯度 Boosting 算法 更 为 
实用 。” 徐 教授 给 出 了 建议 。 

“ 徐 老师 ，L1 正则 化 模型 就 具有 稀 疏 性 ， 求 解 也 比较 容易 ， 为 什么 还 要 建立 
L1/2 正则 化 模型 ? ” 李 部 长 接着 问 道 。 

“理论 研究 和 实验 证 实 ，L1/2 正则 化 模型 解 比 Ll 正则 化 模型 的 解 更 稀疏 ， 虽 
然 他 为 非 凸 优化 问题 ， 难 以 求解 ,但 我 们 提出 了 工 1/2 迭代 阔 值 算法 ， 可 巧妙 而 高 效 
地 对 其 求解 。” 
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1.5.4 ”序列 和 时 间 序 列 


“前 面 我 们 讲 过 分 类 和 聚 类 是 双胞胎 兄弟 ， 这 节 课 我 们 所 讲述 的 序列 和 关联 分 
析 也 是 双胞胎 兄弟 。” 徐 教授 说 。 

“序列 是 怎么 样 一 个 东西 呢 ? ”有 人 问 。 

“序列 就 是 被 排 成 一 列 的 对 象 〈 或 事件 ) ， 这 样 ， 每 
个 元 素 不 是 在 其 他 元 素 之 前 ， 就 是 在 其 他 元 素 之 后 ， 元 素 
之 间 的 顺序 非常 重要 。 就 如 电话 号 码 一 样 ， 同 样 的 数字 但 
是 不 同 次 序 代 表 了 很 重要 的 信息 。” 


“次 序 有 这 么 重要 ? ”有 人 咬 咕 。 
“例如 119 火警 ， 你 按 成 911， 不 好 意思 你 打 到 美国 


报警 电话 了 ， 哈 哈 。” 徐 教授 说 。 

“ 喝 ， 明 白 了 ， 也 就 是 序列 具有 了 次 序 属性 ， 对 吧 ? ” 

“是 的 ， 序 列 与 关联 关系 很 密切 ， 所 不 同 的 是 在 序列 发 现 中 事件 的 相关 是 以 次 
序 来 区 隔 ， 有 时 候 是 以 时 间 来 区 隔 。” 

“原来 这 样 ! 那 徐 老师 您 给 举 个 具体 
点 的 例子 吧 ? ”有 人 提议 。 

“例如 : 如 果 A 股票 在 某 一 天 上 涨 
12%， 而 且 当天 股市 加 权 指 数 下 降 ， 则 B 
股票 在 两 天 之 内 上 涨 的 机 率 是 68%。” 徐 
教授 说 。 

“这 两 个 双胞胎 的 具体 区 别 怎么 来 总 
结 呢 ? ” 
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“序列 也 是 发 现 组 合 规律 的 ， 不 过 关联 中 所 提 到 的 规律 不 涉及 先后 次 序 ， 而 序 
列 则 是 有 先后 次 序 的 。 那 谁 知 道 时 间 序 列 ? ” 徐 教授 。 


“ 黄 非 序列 元 素 有 了 时 间 属 性 ? ” 


“是 的 ， 对 于 具有 时 间 属 性 的 序列 进行 分 析 ， 就 用 到 了 时 间 序 列 分 析 。 时 间 序 
列 分 析 是 指 通过 对 大 量 时 间 序 列 数据 的 分 析 找 到 特定 的 规则 和 感 兴趣 的 特性 ， 从 而 


“ 徐 教授 ， 那 么 回归 分 析 和 时 间 序 列 分 析 有 什么 区 别 呢 ? ”有 人 问 。 


“时 间 序 列 预测 和 回归 的 功能 类 似 ， 只 是 时 间 序 列 是 用 历史 数值 来 预测 未 来 数 
值 ， 是 一 种 特殊 的 自 回归 ， 更 多 的 表现 为 描述 对 于 过 去 时 刻 的 观测 和 相应 时 刻 的 随 
机 扰动 的 记忆 性 规律 。” 徐 教授 解释 说 。 


“ 徐 老师 , 刚才 您 说 股票 数据 是 一 种 时 间 序列 , 在 中 国 这 个 政策 性 市 场 条 件 下 ， 
时 间 序 列 可 能 发 挥 不 到 什么 大 的 作用 。 但 说 到 它 在 冶金 企业 中 的 巨大 作用 ， 我 可 是 
深 有 体会 ， 对 于 我 们 这 些 冶 金 企业 来 说 ， 用 于 抽取 烧结 过 程 产生 废气 的 风机 是 一 个 
关键 设备 ， 过 去 我 们 常常 需要 定期 停机 检修 。 自 从 公司 对 它 建立 了 时 间 序 列 模型 ， 
很 好 地 预测 了 它 将 来 的 状态 ， 不 仅 减 少 了 停机 成 本 ， 而 且 降 低 了 维修 上 的 费用 。” 
李 部 长 感慨 道 。 


“是 的 ， 对 于 时 间 序 列 模型 国人 还 是 比较 熟悉 的 ， 从 气象 预测 到 设备 的 状态 检 
修 等 都 有 着 成 功 的 应 用 案例 。” 徐 教授 很 肯定 地 说 。 


1.6 数据 挖掘 工具 


“ 黑 格 尔 说 : 存在 即 合理 。”， 徐 教授 用 一 句 名 言 开 始 了 本 节 课 的 内 容 。 
台 下 一 个 学 员 悄 悄 地 说 : “ 没 想到 徐 教授 还 研究 哲学 ……” 
“我 最 近 开 始 研 究 盲 信号 处 理 , 尽管 你 的 声音 很 小 , 我 还 是 听见 了 ,谢谢 夸奖 。” 
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大 家 都 被 逗乐 了 。 


徐 教授 : “存在 即 合理 ， 由 此 可 以 引申 出 另外 一 句 名 言 : 哪里 有 需求 ， 哪 里 就 有 
产品 。” 


“就 是 ， 需 求 是 产品 的 源 动力 啊 ”， 大 家 对 这 个 观点 的 看 法 是 完全 认可 。 


接着 ， 徐 教授 便 进入 今天 的 正题 : “由 于 数据 挖掘 的 强大 功能 ， 能 为 社会 创造 巨 
大 的 经 济 效益 ,一 些 著名 大 学 和 国际 知名 公司 纷纷 开发 相关 的 软件 产品 。 下 面 我 们 来 
个 小 摸底 ， 听 说 过 或 者 使 用 过 数据 挖掘 软件 工具 的 同学 请 举 个 手 。” 


只 见 下面 的 学 员 中 ， 稀 稀 拉 拉 只 有 4~5 个 人 举 手 。 


EMBA 的 课 桌 前 面 插 着 每 一 个 学 生 名 字 的 牌子 ， 字 很 大 、 很 清楚 。 老 师 提问 时 可 
直 呼 其 名 ， 同 学 回答 问题 时 也 都 使 用 麦克 风 ， 以 便 教室 里 的 所 有 人 都 能 够 听 清楚 。 对 
于 在 课堂 上 这 样 暴露 身份 ， 并 在 所 有 同学 注视 下 大 声 讲话 ， 老 总 们 开始 不 太 适 应 ， 被 
老师 点 到 名 字 时 总 有 些 紧 张 。 


徐 教 授 指 着 刚才 举 手 的 张 经 理 问 道 : “ 张 经 理 ， 给 大 家 说 说 你 了 解 的 数据 挖掘 工 
具 。” 

张 经 理 采用 地 笑 道 : “其 实 我 自己 没 用 过 ， 不 过 见 我 们 公司 技术 部 小 赵 使 用 过 数 
据 挖 掘 软件 ， 听 他 说 那 软件 是 IBM 的 Intelligent Miner。” 


徐 教授 回应 道 : “对 ，IBM 的 Intelligent Miner 是 IBM 公司 1996 年 推出 的 数据 
挖掘 产品 ， 包 含 多 种 统计 方法 和 挖掘 算法 ， 可 以 进行 线性 回归 、 因 子 分 析 、 主 变量 分 
析 、 分 类 、 分 群 、 关 联 、 相 似 序列 、 序 列 模式 、 预 测 、 发 现 关联 、 发 现 序列 规律 、 概 
念 性 分 类 和 可 视 化 呈现 ， 还 可 以 自动 实现 数据 选择 、 数 据 转 换 、 数 据 挖掘 和 结果 呈现 
等 一 系列 数据 挖掘 操作 。” 


“上 我 的 课 ， 不 要 紧张 ， 根 本 没 必 要 “十 五 个 吊 桶 打 水 ， 七 上 八 下 ”的 。 刘 总 ， 
我 看 刚刚 你 也 举 手 了 ， 跟 大 家 分 享 一 下 你 所 了 解 的 数据 挖掘 工具 。” 


刘 总 站 起 来 回答 道 :“ 我 接触 数据 挖掘 工具 时 间 比 较 短 , 我 们 部 门 使 用 的 是 Unica 


志 记 省 = 


数据 挖 所 


Model 1。” 


徐 教授 : “ 刘 总 ， 问 你 一 个 可 能 涉及 到 隐私 的 问题 ， 你 负责 你 们 公司 产品 的 营销 
活动 策划 吧 ? ” 


刘 总 说 : “是 的 ， 徐 老师 ， 你 比 外 边 那些 算命 的 能 拘 会 算 多 了 。?” 
姚 局 长 说 : “ 徐 教授 ， 英 非 您 也 精读 了 周易 ? ” 
大 家 都 笑 翻 了 ， 开 始 更 加 好 奇 徐 老师 是 怎么 知道 的 呢 。 


徐 教授 : “因为 Unica Model 1 这 个 软件 是 一 款 典 型 的 、 针 对 市 场 营销 和 策划 行 
业 而 研发 的 软件 。” 


“原来 是 这 样 ”， 学 员 们 忧 然 大 悟 。 


徐 教授 接着 说 : “Unica Model 1 这 个 软件 很 经 典 ， 非 常 畅 销 。 它 涵盖 了 响应 模 
型 、 交 叉 销售 模型 、 客 户 价值 评估 模型 、 市 场 细 分 模型 等 ， 这 四 部 分 简直 就 是 这 个 软 
件 的 四 大 金刚 。 还 有 那个 同学 愿意 自告奋勇 地 给 大 家 讲 讲 其 他 数据 挖掘 工具 ? ” 


工行 的 张 行 长 说 : “我 对 SAS 软件 了 解 一 些 ， 该 系统 全 称 为 Statistics Analysis 
System， 最 早 由 北 卡罗来纳 大 学 的 两 位 生物 统计 学 研究 生 编制 ， 并 于 1976 年 成 立 了 
SAS 软件 研究 所 ， 正 式 推 出 了 SAS 软件 。 经 过 多 年 的 发 展 ，SAS 已 被 全 世界 120 多 
个 国家 和 地 区 的 近 3 万 家 机 构 所 采用 ， 直 接 用 户 则 超过 300 万 人 ， 遍及 金融 、 医 药 卫 
生 、 生 产 、 运 输 、 通 讯 、 政 府 和 教育 科研 等 领域 。” 


上 海 一 家 钢铁 公司 的 贾 总 站 起 来 了 ， 补 充 说 道 : “我 们 公司 使 用 的 就 是 SAS 软 
件 。 由 于 SAS 系统 是 从 大 型 机 系统 发 展 而 来 ， 在 设计 上 也 完全 针对 专业 用 户 ， 因 此 
其 操作 至 今 仍 以 编程 为 主 ， 人 机 对 话 界面 不 太 友好 ， 并 且 在 编程 操作 时 需要 用 户 最 好 
对 其 使 用 的 统计 方法 有 较 清楚 地 了 解 ， 非 统计 专业 人 员 掌 握 起 来 较为 困难 。 而且 SAS 
极为 高 昂 的 价格 和 只 租 不 卖 的 销售 策略 使 得 实力 不 足 的 个 人 和 机 构 只 能 望而却步 。 不 
过 ， 由 于 其 功能 强大 ,我 公司 专业 人 员 较 多 ,这 几 年 我 们 不 惜 巨 资 每 年 都 在 租用 该 软 
件 。” 


二 贡生 二 
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徐 教授 感到 很 惊讶 :“ 咱 们 这 个 班 果真 卧 虎 藏 龙 。 张 行 长 和 贾 总 回答 地 非常 专业 。 
不 知道 的 人 还 以 为 你 俩 是 SAS 公司 的 “山寨 ”销售 专家 呢 。” 


贾 总 笑 了 笑 ， 不 好 意思 地 说 : “我 大 学 同 宿舍 的 一 位 同学 在 SAS 北京 办 事 处 工 
作 ， 经 常 来 上 海 推销 他 们 的 产品 ， 每 次 顺便 来 我 这 儿 蹄 酒 喝 ， 免 不 了 给 我 归 明 他 们 的 
SAS， 时 间 长 了 我 就 耳熟能详 了 。” 


徐 教授 也 乐 了 : “原来 如 此 ! ” 


徐 教授 的 话音 刚 落 ， 市 统计 局 程 副 局 长 立即 站 了 起 来 : “SAS 太 专 业 了 ， 我 们 统 
计 分 析 用 SPSS。” 


徐 教授 : “好 ， 那 我 就 简要 的 向 大 家 介绍 一 下 SPSS 统计 软件 吧 。1968 年 ， 斯 
坦 福 大 学 三 位 学 生 创 建 了 SPSS 公司 ,最 初 定位 为 “社会 科学 统计 软件 包 ’ 即 Solutions 
Statistical Package for the Social Sciences， 但 是 随 着 SPSS 产品 服务 领域 的 扩大 和 服 
务 深度 的 增加 , SPSS 公司 已 于 2000 年 正式 将 其 更 改 为 “统计 产品 与 服务 解决 方案 " 
即 Statistical Product and Service Solutions。 其 最 突出 的 特点 就 是 操作 界面 极为 友好 ， 
输出 结果 美观 漂亮 。 它 将 几乎 所 有 的 功能 都 以 统一 、 规 范 的 界面 展现 出 来 ， 使 用 
Windows 的 窗口 方式 展示 各 种 管理 和 分 析 数 据 方法 的 功能 ， 对 话 框 展 示 出 各 种 功能 
选择 项 。” 


“这 么 说 SPSS 一 定 很 好 用 了 ? ”刚才 提问 的 那 位 学 员 继续 问 道 。 


统计 局 程 副 局 长 深 有 感触 地 说 : “用 户 只 要 掌握 一 定 的 Windows 操作 技能 ， 粗 
通 统计 分 析 原 理 ， 就 可 以 使 用 该 软件 进行 统计 分 析 或 数据 挖掘 。 现 在 全 球 约 有 25 
万 家 以 上 用 户 ， 分 布 于 通讯 、 医 疗 、 银 行 、 证 券 、 保 险 、 制 造 、 商 业 、 市 场 研究 、 
科研 教育 等 多 个 领域 和 行业 。 目 前 SPSS 是 世界 上 应 用 最 广泛 的 专业 统计 软件 。” 


“ 徐 老师 ，SPSS 有 哪些 主要 功能 ? ”一 个 学 员 问 。 


徐 教授 : “SPSS 的 基本 功能 包括 数据 管理 、 统 计 分 析 、 图 表 分 析 、 输 出 管理 等 。 
SPSS 统计 分 析 过 程 包括 描述 性 统计 、 均 值 比 较 、 一 般 线 性 模型 、 相 关 分 析 、 回 归 分 
析 、 对 数 线性 模型 、 聚 类 分 析 、 数 据 简化 、 生 存 分 析 、 时 间 序 列 分 析 、 多 重 响应 等 几 
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大 类 。 有 具体 每 类 中 又 分 好 几 个 统计 过 程 ， 比 如 回归 分 析 中 又 分 线性 回归 分 析 、 曲 线 估 
计 、Logistic 回归 、Probit 回归 、 加 权 估计 、 最 小 二 乘法 、 非 线性 回归 等 多 个 统计 过 程 ， 
而 且 每 个 过 程 中 又 允许 用 户 选择 不 同 的 方法 及 参数 。SPSS 也 有 专门 的 绘图 系统 ， 可 
以 根据 数据 绘制 各 种 图 形 。” 


上 海 钢铁 公司 的 贾 总 一 直 认 真 地 听 着 ， 终 于 沉默 不 住 了 : “其 实 SPSS 公司 的 真 
正 的 数据 挖掘 产品 是 Clementine。 它 的 图 形 化 工作 流 操作 方式 使 得 分 析 人 员 能 够 看 到 
数据 挖掘 过 程 的 每 一 步 。 通 过 与 数据 流 的 交互 ， 分 析 人 员 和 业务 人 员 可 以 合作 ， 将 业 
务 知识 融入 到 数据 挖掘 过 程 中 。 这 样 数 据 挖掘 人 员 就 可 以 把 注意 力 集中 于 知识 发 现 ， 
而 不 是 陷入 技术 任务 ,例如 写 代码 ， 所 以 他 们 可 以 尝试 更 多 的 分 析 思 路 ， 更 深入 地 探 
索 数据 ， 揭 示 更 多 的 隐 含 关系 。 我 们 公司 也 有 不 少 技术 人 员 对 Clementine 爱不释手 。 
不 过 ， 网 上 说 2009 年 7 月 ，IBM 以 12 亿美 元 现金 收购 了 SPSS 公司 ，Clementine 也 
更 名 为 [BM SPSS Modeler 了 。” 


航天 研究 院 的 黄 主任 : “ 变 成 IBM 的 软件 ， 屠 不 就 更 贵 了 。 不 过 近 几 年 有 一 款 
免费 的 数据 挖 所 软件 WEKA， 异 军 突起 。” 


贾 总 的 钢铁 公司 为 世界 500 强 企业 ， 财 大 气 粗 地 说 : “ 管 它 免费 不 免费 ， 软 件 到 
底 好 用 不 好 用 ? ” 


黄 主 任 从 座位 上 站 了 起 来 ， 细 声 细 语 : “WEKA 的 全 名 是 怀 卡 托 智能 分 析 环 境 
(Waikato Environment for Knowledge Analysis) ， 是 一 款 免 费 的 、 基 于 JAVA 环境 下 
开源 的 数据 挖掘 软件 ，1993 年 由 新 西 兰 的 the University of Waikato 进行 开发 。WEKA 
集成 了 非常 多 的 数据 挖掘 和 机 器 学 习 算 法 , 包括 分 类 。 回 归 、 聚 类 、 关 联 规 则 等 方面 。 
2005 年 8 月 ,在 第 11 届 ACM SIGKDD 国际 会 议 上 ,the University of Waikato 的 WEKA 
小 组 荣获 了 数据 挖掘 和 知识 探索 领域 的 最 高 服务 奖 。 从 此 WEKA 系统 得 到 了 广泛 的 
认可 ， 被 誉 为 数据 挖掘 和 机 器 学 习 历史 上 的 里 程 碑 ， 是 现今 最 完备 的 数据 挖掘 工具 之 
徐 教授 示意 黄 主 任 坐 下 ， 总 结 道 : “但 是 ，WEKA 算法 多 的 优点 对 于 数据 挖掘 

非 专业 用 户 来 说 反而 变 成 了 缺点 , 用 户 往 往 无 法 判断 选择 哪些 算法 适合 解决 自己 的 问 
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题 。 说 实在 的 ， 其 中 不 少 算法 只 是 科研 成 果 ， 并 不 实用 。” 


最 后 ， 徐 教授 在 黑板 上 写 下 了 一 个 网 址 (http://www. datamininglab. Com) ， 并 
说 : “除了 上 面 提 到 的 这 些 数据 挖掘 软件 外 ， 大 家 感 兴趣 的 话 可 以 自己 光顾 这 个 网 
站 ， 该 网 站 还 提供 了 许多 数据 挖掘 工具 软件 的 性 能 测试 报告 。” 


忆 风 人 


(Oa) 
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第 2 章 数据 挖掘 流程 


上 一 节 课 结束 时 ,， 徐 教授 建议 让 国内 不 锈 钢 巨头 的 品质 部 李 部 长 与 大 家 分 享 他 们 
公司 数据 挖 握 的 成 功 经 验 ， 向 其 他 学 员 介 绍 数据 挖 气 的 流程 ， 李 部 长 欣然 答应 。 今 天 
李 部 长 比 平常 来 的 早 ， 而 且 西 装 革 履 ， 皮 鞋 锂 亮 ， 头 发 油光 可 鉴 。 上 课 铃声 一 响 ， 他 
便 健步 直上 讲台 ， 绝 对 是 大 学 者 风范 。 

“各 位 领导 ， 我 不 是 一 位 数据 挖 握 的 专家 ， 但 是 ， 我 敢 大 言 不 忆 地 说 ， 我 是 工业 
界 敢 吃 “ 螃 屡 ' 者 之 一 。 今 天 我 只 想 把 我 们 公司 应 用 数据 挖 气 技 术 解 决 硅钢 质量 控制 
难题 的 经 过 盘 托 出 ， 希 望 能 够 起 到 抛砖引玉 的 效果 。” 李 部 长 洪亮 的 嗓 门 使 嘲 杂 的 
教室 即刻 平静 下 来 。 


李 部 长 刚 一 停顿 ，R 钢 铁 公司 的 何 总 就 按 撩 不 住 ?，“ 李 部 长 ， 国 内 工业 界 谁 人 
不 知 ， 这 五 、 六 年 ， 您 跟 徐 教授 偷 经 学 艺 ， 徐 教授 脑 瓜 的 数据 挖掘 技术 全 移植 到 了 你 
们 企业 。 这 几 年 , 企业 信息 化 建设 和 质量 管理 方面 的 国家 级 大 奖 几乎 全 被 你 们 捧 走 了 ， 
你 本 人 也 升 为 教授 级 高 工 。 谦虚 什么 呀 ,赶快 讲 吧 ， 你 们 公司 怎么 开始 与 数据 挖 据 结 
上 不 解 之 缘 的 ? 怎么 开展 数据 挖 握 工 作 的 ? ” 

李 部 长 把 目光 转向 坐 在 最 前 排 的 何 总 ，“ 急 什么 ， 何 总 ， 心 急 吃 不 了 羊肉 泡 馈 。 
昨天 老 孙 家 的 羊肉 泡 馈 刚 一 端 上 来 , 你 就 动 筑 子 , 波 着 喉 吃 了 吧 。 ”过 得 大 家 直 笑 …… 


大话 医 了 


2.1 李 部 长 其 人 


李 部 长 在 T 钢 铁 《〈 集 团 ) 有 限 公司 是 个 名 人 。 


李 部 长 叫 李 雪 峰 ，1994 年 7 月 毕业 于 北京 钢铁 学 院 ， 到 T 钢 铁 公 司 当 上 了 炼 钢 一 车 
间 的 技术 员 。 刚 到 企业 不 久 ， 他 发 现 公司 生产 的 铸 坏 质量 很 不 稳定 ， 铸 坏 “ 夹 杂 ”、 
“ 重 皮 ”时 有 发 生 ， 公 司 老 董事 长 其 为 头疼 。 李 雪 峰 主动 向 老 技术 员 请 教 ， 从 师傅 们 
那儿 ， 他 发 现 了 很 多 从 书本 上 学 不 到 的 经 验 ， 真 让 他 喜出望外 。 他 把 这 些 宝贵 的 一 线 
操作 经 验 总 结 归纳 ， 编 写成 《转炉 冶炼 经 验 》， 向 工人 传授 。 不 和 久 ， 炼 钢 一 车 间 的 铸 
坯 质量 明显 高 于 其 他 两 个 车 间 。 公 司 的 老大 难 问 题 有 了 缓解 ， 老 董事 长 脸 上 露出 了 灿 
烂 的 笑容 ， 举 荐 这 个 “初生 牛犊 ” 当 了 炼 钢 一 车 间 主 任 。 


新 官 上 任 ， 信 心 倍增 ， 他 并 不 满足 这 一 点 成 绩 ， 他 深 知 公司 的 铸 坏 质量 与 国内 同 
行 还 有 较 大 差距 ， 更 无 法 与 国外 先进 企业 相 比 。 下 一 步 怎么 办 呢 ? 大 学 四 年 ， 只 学 了 
些 治 人 金 学 原理 和 生产 工艺 方面 的 课程 ， 对 治 金 质量 管理 ， 一 穿 不 通 ， 真 是 书 到 用 时 方 
恨 少 ! 


他 想到 了 母校 ,想到 离 校 时 带 他 毕业 设计 的 导师 孟 教授 曾 嘱 只 过 “工作 中 遇 到 了 
什么 问题 ， 老 师 就 是 你 的 后 盾 。” 于 是 ， 他 来 到 了 盏 教授 的 办 公 室 ， 滔 滔 不 绝地 详 述 
了 和 车间 遇 到 的 技术 难题 。 他 刚 一 讲 完 , 孟 教授 就 拿 起 钢笔 , 写 下 了 四 个 字母 “MSPC”， 
并 风趣 地 说 : “ 锦 训 妙计， 把 我 书架 上 的 这 本 书 带 回 去 ， 好 好 研读 。” 
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李雪峰 如 获 至 宝 ， 当 晚 就 踏 上 了 回 家 的 火车 。 一 路 上 ， 他 把 《多 变量 控制 》 一 书 
从 头 到 尾 看 了 两 遍 。 天 亮 了 ， 火 车 到 了 ， 他 疲惫 的 脸 上 露出 了 希望 的 曙光 。 


回 公司 后 ， 他 把 自己 关 在 办 公 室 ， 奋 战 了 三 天 ， 向 老 董 事 长 提交 了 一 份 在 本 公司 
全 面 推广 “多 变量 控制 ”的 报告 。 他 写 道 ，“ 上 世纪 80 年 代 以 来 ， 日 本 高 质量 产品 的 
挑战 使 SPC (Statistical Process Control，SPC) 在 欧美 工业 界 得 到 极 大 的 重视 。 上 世纪 
90 年 代 初 ,统计 过 程控 制 被 拓展 为 多 变量 控制 (Multivariate Statistical Control, MSPC ) 。 
这 种 方法 是 应 用 主 元 分 析 (Principal Component Analysis，PCA) 和 部 分 最 小 二 乘 
(Partial Least Square，PLS) 等 多 元 统计 方法 基于 传统 的 统计 过 程控 制 而 形成 的 一 种 
对 生产 过 程 的 多 个 变量 进行 监控 、 分 析 、 控 制 的 技术 。MSPC 应 用 的 对 象 正 是 变量 繁 
多 的 复杂 生产 过 程 的 质量 控制 问题 。 建 议 公司 尽快 应 用 先进 的 MSPC 技 术 提高 产品 质 
量 ， 以 使 我 们 在 激烈 的 国际 竞争 中 立 于 不 败 之 地 。” 
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看 了 李雪峰 的 报告 ， 老 董事 长 激动 不 已 ,立即 亲自 主持 召开 了 全 公司 中 级 以 上 技 
术 人 员 大 会 ， 讨 论 通过 了 “应 用 MSPC 技 术 ， 提 高 产品 质量 ”的 决议 ， 并 任命 李雪峰 
为 该 项 目的 技术 负责 人 。 他 边 干 边 学 ， 和 赁 着 良好 的 数学 功底 ， 很 快 掌握 了 MSPC 的 数 
学 方法 。 通 过 MSPC 技 术 ， 各 个 生产 车 间 严 格 地 对 可 能 影响 产品 质量 的 人 、 机 器 、 材 
料 、 方 法 和 环境 等 因素 进行 全 面 监控 ， 发 现 影响 产品 质量 的 不 是 工艺 问题 ， 而 大 多 是 
工人 操作 不 当 、 原 料 不 达标 、 机 器 易 耗 部 件 不 及 时 更 新 、 不 重视 环境 变化 的 影响 等 原 
因 造 成 的 。 于 是 ， 李 雪 峰 带 着 技术 组 的 同事 们 ， 制 定 了 细致 的 6 管理 策略 ， 并 建立 了 
严格 的 生产 操作 规程 。 经 过 半年 的 努力 ， 全 公司 的 产品 质量 有 了 质 的 飞越 ， 企 业 的 经 
济 效益 大 大 提高 。 一 年 后 ， 李 雪 峰 被 任命 为 公司 品质 部 部 长 ， 他 很 快 成 了 全 公司 的 名 
人 。 十 几 年 来 ， 他 任劳任怨 ， 时 时 刻 刻 把 握 着 公司 每 一 种 产品 的 质量 脉 捕 。 他 多 次 放 
弃 了 提升 的 机 会 , 他 常 说 , 质量 是 公司 的 命脉 , 品质 部 是 公司 的 心脏 , 有 了 好 的 产品 
企业 才 有 出 路 。 


2001 年 3 月 ， 李 部 长 和 公司 其 他 几 位 同事 考取 了 西安 一 所 著名 高 校 的 工程 硕士 ， 
2003 年 6 月 毕业 。 


2.2 老 革 命 遇见 了 新 问题 


李 部 长 打开 了 他 的 笔记 本 电脑 ， 开 始 与 大 家 分 享 他 和 他 的 同事 们 的 数据 挖掘 之 
旅 。 他 清 了 清 嗓子 ， 洪 亮 的 晋 西北 口音 使 教室 又 恢复 了 平静 : “话说 2004 年 秋 ， 我 公 
司 从 德国 引进 了 一 套 新 的 无 取向 硅钢 生产 线 。2004 年 10 月 8 日 ， 是 新 硅钢 生产 线 达 产 
的 日 子 ， 集 团 公司 新 上 任 的 陈 董事 长 和 公司 其 他 主要 领导 一 大 早 就 来 到 了 生产 车 间 。 
8 点 15 分 ， 一 卷 卷 硅钢 板 缓 缓 下 线 。 顿 时 ， 硅 钢 卷 上 折射 出 一 道道 闪光 ， 现 场 响起 了 
一 阵 热 烈 的 掌声 。 公 司 领 导 个 个 神采 奕奕 ,我 更 是 格外 高 兴 ， 真是 谢 天 谢 地 ， 达 产 顺 
利 。8 点 和 5 分， 领导 们 陆续 离开 车 间 ， 我 也 回 到 了 办 公 室 。” 
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突然 ， 李 部 长 眉头 紧 闭 ， 右 手 狠 狠 地 敲 击 了 一 下 笔记 本 键盘 ， “世界 上 哪 有 这 人 么 
容易 的 事 。3 天 后 ， 车 间 主 任 急 匆匆 地 把 我 带 到 了 卷 取 机 前 ， 让 我 查看 了 69 卷 有 不 同 
程度 纵 条 纹 的 硅钢 卷 。” 


李 部 长 习惯 性 地 用 右手 挠 了 挠 头发 ， 接 着 说 : “当时 我 头 一 下 子 就 懂 了 ， 硅 钢 卷 
中 纵 条 纹 严重 而 被 打 入 废品 的 竞 达 31 卷 , 另外 38 卷 也 因 有 不 同 程度 的 纵 条 纹 不 得 不 降 
级 处 理 。 估 计 因 纵 条 纹 缺陷 每 天 直接 损失 不 低 于 30 万 元 。” 从 李 部 长 的 神情 ， 学 员 们 
可 以 想象 出 他 当时 是 何等 的 着 急 。 

“不 光 我 着 急 ， 硅 钢 生 产 线 的 所 有 工人 和 技术 人 员 跟 我 一 样 。 看 着 他 们 布 满 血丝 
的 眼睛 ， 我 就 知道 ， 他 们 肯定 这 几 天 一 直 没 有 离开 车 间 。” 说 到 这 里 ， 李 部 长 的 眼睛 
湿润 了 。 

“我 让 几 个 负责 人 留 下 ， 其 他 人 立即 回 家 ， 美 美 地 给 我 睡 上 一 觉 。” 李 部 长 的 话 
音 刚 落 ， 电 力 公司 的 李 总 便 开 了 口 : “你 手下 的 那些 人 ， 跟 你 是 一 路 货色 ， 爱 三 如 家 ， 
拼命 三 郎 ， 肯 定 睡 不 着 。” 


说 起 他 的 得 力 部 下 ， 李 部 长 更 来 劲 了 : “你 说 对 了 ， 他 们 一 个 也 没 走 ， 钻 进 车 间 
外 面 的 汽车 里 临时 休息 ， 等 候 我 的 命令 。” 


急性 子 李 总 又 发 话 了 : “ 快 说 ， 你 接 下 来 有 什么 把 戏 可 要 ? ” 


李 部 长 把 视线 移 向 了 李 总 : “我 顾 不 上 他 们 了 ， 先 让 几 个 技术 人 员 说 了 说 他 们 的 
看 法 。” 


ss 
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“有 着 近 10 年 多 变量 统计 质量 控制 经 验 的 总 工 急 不 可 耐 ， 他 说 ， 当 第 8 卷 硅钢 下 
线 时 ， 质 检 员 就 报告 出 现 硅钢 板 表 面 出 现 纵 条 纹 ， 我 们 没 向 领导 汇报 ， 自 以 为 自己 有 
十 几 年 驾驭 MSPC 进 行 质量 控制 的 经 验 , 可 经 过 3 天 的 努力 ,就 是 发 现 不 了 引起 纵 条 纹 
的 元 凶 ?” 李 部 长 沉重 地 说 。 


“6c 办 公 室 主任 也 认为 他 们 对 每 一 个 过 程 变量 的 控制 也 严格 按照 6c 管 理 规程 
操作 ， 参 数 的 命中 率 都 足够 高 ， 可 纵 条 纹 仍 然 消失 不 了 ， 真 是 奇怪 透 了 ! ” 李 部 长 
补充 道 。 

“大 家 你 一 言 ， 我 一 语 ， 最 后 还 是 想 不 出 有 效 的 办 法 来 。 实 在 无 奈 ， 我 只 好 将 所 
有 技术 人 员 分 为 三 组 ,分别 跟班 生产 , 密切 注意 纵 条 纹 发 展 动向 。 第 一 组 先 留 在 这 儿 ， 
其 他 人 都 回去 休息 。” 李 部 长 显 出 无 奈 的 样子 。 


2.3 ”钓鱼 钓 来 了 数据 挖掘 思路 


李 部 长 沉默 了 一 会 儿 后 ， 轻 轻 地 按 了 一 下 光 笔 ， 屏 幕 上 出 现 了 他 钓鱼 的 照片 。 学 
员 们 都 以 为 李 部 长 按 错 了 键 ， 小 声 吐 咕 起 来 。 


李 部 长 也 看 到 了 大 家 的 证 异 ， 急 忙 说 道 : “我 的 PPT 没 有 放 错 ， 天 无 绝 人 之 路 ， 
钓鱼 钓 来 了 数据 挖 据 ， 帮 我们 破解 了 硅钢 纵 条 纹 的 技术 难题 。” 
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电力 公司 的 王 总 疑惑 不 解 ， 右 手轻 轻 地 敲 了 一 下 桌子 : “ 李 部 长 ， 都 到 了 燃 眉 之 
际 ， 你 还 悠闲 地 钓鱼 ， 鱼 身上 会 有 什么 灵丹妙药 ? ” 

李 部 长 走 下 讲台 ， 看 着 电力 公司 的 王 总 说 道 : “ 且 听 我 慢 慢 说 来 。 转 眼 已 经 是 周 

了 ,我 哪 有 心思 回 家 。 老婆 打 电 话 催 几 回 了 , 说 有 几 个 老 哥 们 在 等 我 。 我 踏 进 家 门 ， 

只 见 3 个 “ 鱼 友 ” 坐 在 沙发 上 。 我 明白 了 ， 他 们 想 让 我 放松 一 下 ， 换 换 脑 子 。” 
清 了 清 嗓 子 ， 李 部 长 接着 回忆 : “ 周 六 一 大 早 ， 我 们 来 到 了 南郊 “ 渔 乐园 ”。 坐 
下 来 不 到 半 个 小 时 ， 伙 计 们 个 个 捷报 频传 ， 可 鱼 儿 就 是 不 来 造访 我 的 浮漂 。 其 实说 真 
的 ， 我 虽然 眼睛 看 着 浮漂 ， 但 满 脑子 全 是 纵 条 纹 。 突 然 ， 浮 漂 动 了 ， 可 我 的 电话 铃 也 
响 了 。 是 不 是 纵 条 纹 问题 有 了 进展 ,我 急忙 扔 下 渔 笔 ， 打 开 手 机 。 原 来 电信 公司 短信 
息 向 我 推荐 “最 近 比 较 烦 ”、“ 上 曙光 在 前 头 ”等 彩铃 。 我 气愤 地 合 上 了 手机 ， 起 身 想 
离开 ， 但 又 怕 打 扰 了 伙伴 们 的 兴致 ， 只 好 又 静坐 下 来 。” 

台 下 静 人 悄悄 一 片 ， 都 在 等 李 部 长 继续 讲 他 的 周末 经 历 。 
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李 部 长 长 地 吁 了 一 口气 说 : “我 突然 感到 纳 闽 ， 为 什么 几 个 哥们 和 周围 其 他 “ 渔 
友 ” 没有 收 到 这 些 彩 铃 推荐 ， 电 信 公 司 偏偏 对 我 情 有 独 钟 ? 为 什么 偏偏 在 自己 心情 不 
好 的 时 候 推荐 了 “最 近 比较 烦 ” 等 类 似 的 歌曲 ? 傍晚 回 家 时 “ 鱼 友 ” 们 个 个 满载 而 归 ， 
一 路 上 兴致 勃勃 ， 而 我 却 一 言 不 发 ， 一 连 串 的 疑问 让 我 百 思 不 得 其 解 。 回 到 家 中 ， 我 
便 向 在 大 学 电信 学 院 教书 的 同学 打 了 个 电话 ， 请 教 其 中 的 奥秘 。” 

台 下 的 张 行 长 心急 火 煤 地 问 : “ 李 部 长 ， 你 同学 给 你 揭秘 喻 ? ” 

李 部 长 笑 俐 钥 地 说 : “他 告诉 我 ， 电 信 公 司 对 用 户 的 信息 进行 了 数据 挖掘 ， 并 向 
我 解释 了 其 中 的 门道 。 原 来 如 此 ! 钓鱼 前 的 某 天 晚上 ,我 在 微 博 上 将 最 近 生 产 中 过 到 
的 问题 简单 描述 了 一 下 ， 期 望 有 同行 帮忙 ， 并 写 了 “ 郁 闽 ”、 “着 急 ” 之 类 的 话语 ， 
而 且 以 前 我 也 咨询 过 彩铃 业务 ， 于 是 电信 公司 就 把 我 作为 潜在 客户 进行 精确 营销 。” 

看 着 李 部 长 夸 电 信 的 主动 营销 做 得 好 ， 冯 总 和 十 提 脸 上 多 有 光彩 了 。 


李 部 长 思路 严谨 ， 接 着 讲述 : “我 当时 一 个 激 灵 ， 想 起 来 在 工程 硕士 班 上 《最 优 
化 及 其 应 用 》 课 时 ， 老 师 曾 提起 过 数据 挖 气 在 工业 生产 中 的 应 用 。 此 时 我 不 知 从 哪儿 
来 了 一 股 劲 ， 非 常 渴望 了 解 一 下 数据 挖 所 技术 。” 

受 李 部 长 感染 ， 黄 主任 说 : “ 李 部 长 ， 看 你 对 知识 的 渴望 劲 儿 ， 是 不 是 预感 数据 
挖掘 可 能 就 是 解决 燃眉之急 的 良 方 了 ? ” 

李 部 长 肯定 地 回答 道 :“ 可 不 是 么 , 我 急切 地 在 百度 上 输入 了 关键 词 “数据 挖掘 ” 。 
我 发 现 数据 挖 所 在 国内 外 都 是 研究 的 热点 ， 而 且 在 互联 网 、 金 融 、 电 信 、 商 业 、 交 通 、 
电力 、 政 府 机 关 、 工 业 生产 等 领域 都 有 很 多 成 功 的 应 用 案例 。 当 “数据 挖掘 在 钢铁 产 
品质 量 控制 中 的 应 用 ”这 几 字 映 入 眼帘 时 ,仿佛 抓 住 了 一 根 救命 稻草 。 我 急切 地 浏览 
着 这 方面 的 内 容 ， 了解 到 数据 挖掘 技术 在 治 金 行业 特别 是 钢铁 生产 中 已 经 有 不 少 成 功 
的 应 用 。 例 如 ， 安 阳 钢 铁 公司 在 板 坯 连 铸 的 二 冷 配水 中 应 用 数据 挖掘 技术 ， 解 决 钢 板 
裂纹 问题 ， 宝钢 在 钢材 产品 质量 管理 、 配 矿 优 化 、 节 约 运输 成 本 等 方面 的 成 功 应 用 ， 
湖南 冶金 总 公司 将 数据 挖掘 技术 应 用 到 焦化 配 煤 优化 中 ,不 仅 使 焦炭 质量 提高 ， 也 大 
大 降低 了 生产 成 本 。” 


姚 局 长 说 : “ 李 部 长 ， 我 能 理解 您 当时 的 激动 心情 ， 这 些 成 功 案例 可 都 是 和 您 面 
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临 的 问题 息息相关 呀 ! 这 下 你 心中 的 信心 之 火 被 燃 起 来 了 吧 ? ” 

李 部 长 感慨 地 说 : “确实 是 ， 搜 集 到 的 信息 越 多 ， 我 才 知 道 自 己 平时 忙于 生产 管 
理 ， 与 研究 单位 和 高 校 接触 太 少 ， 被 新 技术 远 远 地 抛 在 了 后 面 。 我 再 也 按 扰 不 住 内 心 
的 激动 ， 觉 得 数据 挖掘 必定 可 以 解决 硅钢 纵 条 纹 质量 问题 。 于 是 我 连夜 向 公司 领导 写 
了 一 份 《应 用 数据 挖掘 技术 解决 硅钢 纵 条 纹 质量 控制 问题 》 的 报告 。” 


2.4 数据 挖掘 项 目 立项 


李 部 长 回忆 起 了 次 日 的 情形 : “第 二 天 早上 8 点 ， 我 带 着 这 个 报告 来 到 陈 董事 长 
的 办 公 室 ， 只 见 集团 公司 总 经 理 、 总 工 都 在 。 董 事 长 看 我 来 了 ， 风 趣 地 说 : “说 曹操 
到 曹操 便 到 ”! 刚才 我 与 两 位 老总 商量 好 了 ， 准 备 交 给 你 一 项 开创 性 的 任务 。” 
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“我 心 起 ， 青 定 是 硅钢 纵 条 纹 问题 要 给 我 下 死命 令 了 。 垃 亏 昨 天 晚上 已 有 准备 ， 
我 急忙 将 写 好 的 请 命 书 递 了 上 去 。 三 位 老总 看 了 报告 的 题目 ， 都 笑 了 。 我 不 知道 他 们 
在 笑 什么 。” 

董事 长 当时 看 着 我 不 解 的 样子 ， 解 释 道 : “ 异 工 同 曲 ， 我 与 业界 同行 和 有 关 专 家 
沟通 过 了 ,硅钢 纵 条 纹 问题 可 以 尝试 应 用 数据 挖掘 技术 解决 。 我 给 二 位 老总 建议 让 你 
哺 这 块 硬骨头 呢 ， 刚 准备 给 你 打 电话 你 就 自 报 家 门 来 了 。 我 们 集团 公司 这 位 MSPC 的 
开拓 者 ， 又 将 成 为 数据 挖掘 的 先行 者 了 。” 


移动 公司 梁 总 说 : “真是 英雄 所 见 略 同 啊 ， 李 部 长 ， 您 和 领导 想 一 块 儿 去 了 ! ” 


李 部 长 有 点 惨 愧 地 说 : “说 实在 的 ， 数 据 挖 气 能 不 能 消除 硅钢 纵 条 纹 缺陷 ， 我 心 
里 一 点 也 没 底 。 但 我 预感 到 ， 即 使 不 能 彻底 解决 问题 ， 起 码 会 有 一 定 的 效果 。 于 是 我 
干脆 地 答 道 ， “请 老总 们 放心 ， 我 们 尽力 完成 任务 ! ” 


李 部 长 说 完 最 后 一 句 话 的 时 候 声音 特别 洪亮 , 学 员 们 一 阵 阵 鼓掌, 为 他 加 油 喝彩 。 


掌声 刚 洲 , 电力 公司 王 总 就 开口 了 :“ 李 部 长 , 这 回 你 可 是 “ 深 油 锅 里 失 爹 子 一 一 
无 法 下 于 啦 ! ，” 


李 部 长 目光 移 向 电力 公司 王 总 : “ 吉 人 自 有 天 助 ! 董事 长 也 给 我 了 一 张 神秘 的 小 
纸 条 。” 


王 总 急 了 : “是 不 是 消除 硅钢 纵 条 纹 缺陷 的 灵丹妙药 ? ” 


李 部 长 右手 轻 轻 在 键盘 上 一 毅 ， 屏幕 上 出 来 了 一 个 人 的 头像 。“ 是 这 个 人 的 联系 
方式 。” 


学 员 们 一 看 ， 都 笑 了 ， 齐 声 喊 道 : “ 徐 教授 ! ” 


李 部 长 喜 形 于 色 : “原来 ， 董 事 长 读 研 时 ， 听 过 徐 教授 的 《智能 计算 》 课 ， 董 事 
长 早 就 与 徐 教授 探讨 过 应 用 数据 挖掘 技术 进行 流程 工业 质量 控制 的 方法 。” 


听 李 部 长 这 么 一 说 ， 大 家 也 都 被 徐 教授 的 影响 力 折服 了 ! 
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李 部 长 接着 刚才 的 话题 补充 说 : “ 回 到 办 公 室 ， 我 拨 通 了 徐 教 授 的 电话 ， 描 述 了 
我 们 生产 中 遇 到 的 技术 难题 ， 并 向 徐 教授 求援 ， 他 欣然 答应 。 三 天 以 后 ， 徐 教授 带领 
六 人 教授 团 来 到 了 公司 ， 他 们 个 个 都 是 智能 信息 处 理 的 专家 。 集 团 公司 领导 陪同 专家 
们 参观 了 硅钢 生产 线 后 ， 双 方 进行 了 深入 的 交流 。 随 后 ， 徐 教授 向 公司 技术 人 员 作 了 
《数据 挖掘 技术 及 其 应 用 》 的 报告 ， 向 我 们 讲述 了 数据 挖掘 基本 概念 、 典 型 任务 、 核 
心 技术 ， 并 对 我 们 公司 开展 数据 挖掘 工作 提出 了 一 些 建议 。” 


李 部 长 轻 轻 按 了 一 下 光 笔 ， 屏 幕 出 现 了 如 下 内 容 : 


对 钢铁 (集团 ) 公 司 数据 挖掘 的 建议 


”唤起 企业 员工 以 数据 挖掘 带动 企业 管理 精细 化 重要 性 的 认识 ， 形 成 依 
“数据 说 话 ” 的 决策 机 制 ， 促 进 企业 管理 理念 与 方式 的 变革 ; 
”重视 数据 的 收集 整理 特别 是 数据 仓库 的 建设 ; 
”强化 培训 , 组 建 数据 挖掘 技术 骨干 队伍 ; 
“重点 突破 几 个 带 有 示范 性 的 数据 挖掘 应 用 ; 
Ni 研究 解决 


fa 
i 


李 部 长 将 光 笔 指 向 建议 的 第 一 条 ， 解 释 说 : “钢铁 企业 是 流程 化 的 生产 单位 ， 虽 
然 生 产 自 动 化 程度 非常 高 ， 但 是 ， 老 实说 ， 我 们 的 很 多 工序 (如 炼 铁 、 炼 钢 、 连 铸 、 
轧钢 等 ) 的 过 程控 制 很 大 程度 上 依赖 技术 工人 的 经 验 , 对 生产 过 程 的 驾驭 还 比较 粗放 。 
过 , 我 们 已 经 建立 了 先进 的 信息 化 平台 。 尤 其 是 近 几 年 企业 形成 的 “建设 创新 型 企 
业 ” 的 文化 氛围 下 ， 我 们 公司 积累 了 丰富 的 数据 ， 也 具备 了 一 支 高 素质 的 管理 技术 队 
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伍 。 企 业 高 层 领导 一 致 认为 ， 科 学 决策 是 企业 信息 化 建设 的 最 终 目 标 ， 数 据 挖 掘 是 实 
现 这 一 目标 的 有 效 工具 ， 是 构筑 未 来 核心 竞争 优势 、 保 持 可 持续 发 展 、 实 施 精细 化 管 
理 的 战略 选择 。” 


李 部 长 刚 一 停顿 ， 国 内 产能 最 大 的 S 钢铁 公司 的 赵 总 起 身 问 道 : “ 李 部 长 ， 据 我 
所 知 ， 我 们 两 家 公司 一 样 ， 都 投资 数 亿 元 引进 世界 500 强 SAP 软件 公司 的 钢铁 生产 
管理 解决 方案 ， 它 是 一 个 全 面 、 完 整 、 集 成 的 系统 ， 其 功能 覆盖 了 财务 、 成 本 、 生 产 、 
销售 、 供 应 、 库 存 、 质 量 、 项 目 管理 、 设 备 维护 、 人 力 资源 管理 、 供 应 链 管理 、 客 户 
关系 管理 、 供 应 商 关 系 管理 、 决 策 支 持 等 钢铁 企业 信息 化 管理 各 方面 的 需求 ， 可 见 该 
系统 的 数据 可 谓 包罗 万 象 、 应 有 尽 有 , 可 徐 教授 为 什么 还 要 建议 重视 数据 的 收集 整理 ， 
特别 是 数据 仓库 的 建设 呢 ? 。” 


听 了 赵 总 的 问题 ， 李 部 长 笑 了 : “你 的 疑虑 跟 我 是 一 样 的 ， 我 也 问 过 徐 教授 这 个 
问题 。 大 家 知道 ，SAP 系统 其 实 就 是 ERP 系统 ， 它 以 供应 链 为 主线 ， 包 括 从 销售 订 
单 或 生产 经 营 计划 一 生产 排 程 一 组 织 采购 一 安排 生产 一 销售 发 货 的 整个 过 程 , 着 力 于 
计划 流 、 物 流 、 信 息 流 、 资 金 流 的 统一 运转 ， 通 过 计划 流 驱动 物流 ， 通 过 物流 驱动 资 
金 流 的 良性 循环 。 从 ERP 的 角度 来 看 ，SAP 系统 确实 不 辱 “ 全 球 最 佳 ” 这 一 称号 。 
但 从 数据 挖掘 的 角度 着 眼 , 我 们 需要 关注 新 产品 设计 、 改进 产品 质量 、 降低 生 产 成 本 、 
设备 故障 检测 等 这 些 主题 。 这 些 方面 涉及 到 基础 自动 化 (LI1) 、 过 程 自动 化 (L2) 、 
产 线 管控 (MES) 、 经 营 管理 (ERP) 、 决 策 支持 (DSS) 等 信息 系统 。 可 是 这 五 级 
系统 并 没有 完全 整合 , 在 一 定 程度 上 还 是 “信息 孤岛 ，。 当 确定 了 数据 挖掘 的 目标 后 ， 
就 需要 对 数据 进行 整理 。 当 然 ， 像 我 们 这 样 正 在 进军 世界 500 强 的 大 型 钢铁 公司 ， 可 
以 通过 数据 挖掘 解决 的 问题 太 多 了 ， 最 好 是 统一 规划 ， 建 立 数据 仓库 。” 

赵 总 边 听 边 点 头 : “信息 孤岛 ， 害 人 不 浅 ! 有 一 次 我 们 要 分 析 钢 材 表面 夹杂 缺陷 


的 原因 ， 各 车 间 的 生产 数据 在 各 自 的 生产 系统 中 ， 而 且 数据 缺失 、 噪 音 比 较 严 重 ， 技 
术 人 员 花 了 十 天 左右 时 间 对 相关 的 数据 进行 清理 、 整 合 。” 


赵 总 端 起 水 杯 ， 刚 准备 喝 水 ， 又 放下 杯子 ， 问 道 : “ 李 部 长 ， 数 据 挖掘 项 目 与 一 
般 的 信息 化 项 目 一 样 ， 主要 由 专业 公司 或 科研 单位 来 完成 , 钢铁 公司 相关 人 员 配 合 就 
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行 ， 徐 教授 为 什么 还 建议 “加 强 培 训 ， 组 建 数据 挖掘 技术 骨干 队伍 ? ”” 


李 部 长 急忙 道 :“ 起 总 , 对 这 个 问题 我 原来 与 你 的 认识 一 致 ,现在 我 体会 更 深 了 ， 
数据 挖掘 项 目 与 普通 的 信息 化 项 目 还 是 有 很 大 差别 的 。 目 前 我 国 的 大 中 型 企业 不 乏 信 
息 化 方面 的 技术 人 员 ， 但 懂得 数据 挖掘 的 人 才 容 容 无 几 ， ER 
工作 ， 一 方面 需要 与 高 校 等 科研 单位 或 专业 的 数据 挖 据 公 司 合作 ， 另 一 方面 还 要 加 强 
en 
所 方法 的 技术 骨干 。 这 样 ,行业 领域 技术 人 员 和 数据 挖 扬 专家 一 起 才能 从 实际 工作 中 
Oe a 建立 合理 的 数据 模型 ， 客 观 地 评估 数据 挖 
掘 的 结果 。” 


汽轮机 公司 的 江 总 听 到 这 里 ， 打 断 了 李 部 长 : “不 就 是 需要 人 吗 ， 现 在 公司 里 硕 
士 博 士 一 大 群 ， 一 个 个 好 学 上 进 ， 与 数据 挖 抉 专家 一 起 组 建 一 个 开发 组 不 就 行 了 ! ” 


看 着 江 总 吊 员 逼 人 的 样子 ， 李 部 长 有 点 不 服气 了 : “ 江 总 ， 你 以 为 只 有 你 们 公司 
人 才 济济 。 现 在 ， 连 2、3 百人 的 小 企业 都 有 几 十 名 硕士 ， 不 信 ， 你 问 问 在 你 前 排 就 
座 的 玻璃 公司 的 彭 总 。” 


彭 总 会 意 地 点 了 点 头 。 


李 部 长 接着 说 :“ 组 建 了 团队 以 后 , 怎样 开展 工作 呢 ? 大 家 首先 要 清楚 地 认识 到 
数据 挖掘 可 以 解决 企业 生产 、 管 理 中 的 很 多 用 常规 方法 难以 处 理 的 问题 ， 但 数据 挖掘 
也 不 是 万 能 的 , 不 能 包揽 所 有 问题 。 而 且 还 会 有 一 些 问 题 应 用 经 典 的 数据 挖掘 方法 无 
法 得 到 满意 的 结果 , 需要 数据 挖掘 专家 针对 具体 问题 建立 相应 的 数学 模型 并 设计 特有 
的 求解 算法 才能 解决 。 因 此 ， 开 展 数据 挖掘 的 初期 ， 最 好 选择 一 些 相对 容易 的 问题 ， 
这 样 ， 一 方面 能 够 很 快 领略 到 数据 挖掘 的 奥妙 ， 另 一 方面 为 解决 较为 复杂 的 问题 积累 
经 验 。” 


汽轮机 公司 的 江 总 又 开口 了 : “我 明白 了 为 什么 徐 教授 专门 强调 “重点 突破 几 个 
带 有 示范 性 作用 的 数据 挖掘 应 用 ”。 对 头 ， 旗 开 得 胜 ， 往 后 不 要 命 ! 后 来 你 们 选择 了 
几 个 问题 试图 应 用 数据 挖掘 方法 解决 ? ” 
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李 部 长 回答 : “经 过 与 徐 教授 等 人 反复 讨论 分 析 ， 我 们 认为 硅钢 纵 条 纹 问题 是 我 
们 迫在眉睫 、 不 能 回避 的 问题 。 虽 然 有 相当 的 难度 ， 但 也 得 背水一战 。 在 硅钢 纵 条 纹 
项 目 完 成 后 ， 我 们 继续 进行 基于 支撑 向 量 机 和 遗传 算法 的 热 连 轧 质量 控制 方法 研究 。 
经 公司 领导 同意 后 , 我 们 钢铁 公司 和 数据 挖掘 公司 先 签 订 了 消除 硅钢 钢板 纵 条 纹 缺陷 
的 数据 挖掘 方法 研究 技术 协议 。 双 方 决定 共同 组 建 数据 挖掘 团队 ， 团 队 由 专家 组 、 数 
据 组 、 算 法 组 、 软 件 组 和 部 署 组 5 个 组 构成 ， 由 李 部 长 担任 甲 方 数据 挖掘 项 目 经 理 ， 
负责 整体 负责 数据 项 目的 实施 。 由 数据 挖掘 公司 的 卢 经 理 担任 乙方 项 目 经 理 ， 具 体 开 
展 数据 挖掘 工作 。” 


2.5 数据 挖掘 项 目 实施 


“ 李 部 长 ， 这 回 你 可 谓 骑马 上 独木桥 


回 不 得 头 了 ! ”S 钢铁 公司 的 赵 总 笑 嘻 


zs 
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路 地 说 。 

李 部 长 显得 不 慌 不 忙 : “有 了 徐 教授 的 数据 挖掘 研究 中 心 作 坚 强 后 盾 ， 我 信心 十 
足 。 研 究 团 队 成 立 后 各 小 组 立即 紧锣密鼓 地 按照 “跨行 业 数据 挖掘 标准 流程 ” 既 有 分 
工 又 相互 协作 地 开展 工作 ， 经 过 一 个 半月 的 奋战 ， 终 于 取得 了 可 喜 的 成 果 。” 说 到 这 
里 ， 李 部 长 脸 上 露出 了 灿烂 的 笑容 。 


这 时 ， 汽 轮机 公司 的 江 总 却 眉头 紧 皱 ， 不 解 地 问 : “ 李 部 长 ，“ 跨 行业 数据 挖掘 
标准 流程 ”是 不 是 就 是 一 种 通用 的 数据 挖掘 过 程 ， 你 还 是 给 我 们 介绍 介绍 吧 ! ” 

李 部 长 说 : “不 好 意思 ， 咱 不 是 专业 教师 ， 犯 了 这 样 低级 的 错误 ， 将 没有 讲解 的 
名 词 先 卖弄 出 来 了 。” 


ss 
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李 部 长 用 光 笔 指 着 这 张 流程 图 说 : “为 了 低 成 本 、 易 操作 、 高 效 、 可 靠 地 进行 数 
据 挖掘 ， 经 过 数据 挖掘 标准 化 联盟 对 十 几 年 数据 挖掘 实践 进行 经 验 总 结 和 理论 抽象 ， 
创建 了 跨行 业 数据 挖掘 标准 流程 ， 即 Cross Industry Standard Process for Data Mining， 
简称 CRISP-DM。 它 包括 业务 理解 、 数 据 理 解 以 及 收集 、 数 据 准备 、 建 立 模型 、 模 型 
评估 和 部 署 六 个 阶段 。 我 们 消除 硅钢 钢板 纵 条 纹 缺 陷 的 数据 挖掘 方法 项 目 也 是 按照 这 
六 个 步骤 进行 的 ， 下 课 铃 响 了 ， 休 息 一 会 我 再 给 大 家 较为 详细 地 说 明 。” 


2.5.1 业务 理解 阶段 (Business Understanding) 

李 部 长 从 来 没有 讲 过 这 么 长 时 间 的 课 ， 有 点 累 了 。 他 来 到 教授 休息 室 ， 工 作 人 员 
马上 给 他 递 了 一 杯 热 腾腾 的 牛奶 ， 他 一 饮 而 尽 ， 又 要 了 一 杯 。 

上 课 铃 响 了 ， 李 部 长 精神 抖 扳 地 走 进 教 室 ， 手 里 还 端 着 未 喝 完 的 牛奶 。 

汽轮机 公司 的 江 总 看 着 李 部 长 的 样子 ， 开 玩笑 道 : “ 李 部 长 ， 你 光顾 自己 享受 教 
授 级 待遇 了 ， 也 不 给 你 老 哥 讨 杯 牛 奶 来 ， 别 忘 了 ， 刚 才 那 节 课 咱们 倘 一 问 一 答 ， 我 都 
成 “助教 ”了 。” 

“这 不 ， 还 有 半 杯 ， 你 喝 吧 ! ” 李 部 长 将 杯子 递 向 江 总 ， 江 总 急忙 摆 了 摆手 。 


李 部 长 走 上 了 讲台 : “不 开玩笑 了 ， 咱 们 接着 上 课 。 江 助教 ， 上 一 节 课 讲 到 到 什 
么 地 方 了 ? ” 李 部 长 装 出 一 副 若 有 所 思 的 样子 。 


“跨行 业 数 据 挖掘 标准 流程 。” 江 总 喊 道 。 


“哈哈 ! 其 实 我 是 想 转移 你 的 注意 力 到 课堂 上 来 。” 李 部 长 边 说 边 打 开 笔记 本 电 
脑 。 


这 时 ， 屏 幕 上 跳出 了 如 下 内 容 : 
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跨行 业 数 据 挖掘 标准 流程 


第 1 阶段 业务 理解 
主要 任务 是 深刻 理解 业务 需求 ， 
在 此 基础 上 制定 数据 挖 气 的 目标 和 实现 目标 的 初 2 
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李 部 长 用 手中 的 光 笔 指 着 投影 : “我 代表 甲 方 提 出 ， 硅 钢 纵 条 纹 问题 的 需求 很 明 
确 ， 就 是 要 应 用 数据 挖掘 方法 找 出 导致 纵 条 纹 问 题 的 关键 因素 ， 并 实现 对 关键 因素 的 
控制 达到 消除 硅钢 纵 条 纹 的 目的 。” 


S 钢铁 公司 的 赵 总 : “ 李 部 长 ， 你 们 的 要 求 太 宽泛 了 吧 ? 虽然 我 是 数据 挖掘 的 
外 行 ， 但 起 码 明 白 不 管 干什么 事情 ， 目 标 必 须 非 常 具体 ， 在 产品 质量 控制 方面 更 应 
当 如 此 。” 


李 部 长 知道 ， 赵 总 在 S 钢铁 公司 主要 负责 产品 质量 管理 ,指挥 过 无 数 次 质量 问题 
技术 攻关 ， 他 的 话 真是 一 针 见 血 。 


于 是 , 他 将 目光 转向 赵 总 : “是 的 , 赵 总 说 得 太 对 了 ! 在 第 一 次 数据 挖掘 会 议 上 ， 
我 先 汇报 了 硅钢 生产 线 出 现 纵 条 纹 缺 陷 的 情况 。 我 们 公司 技术 中 心 教授 级 高 工 刘 主任 
从 治 金 学 原理 方面 陈述 了 纵 条 纹 产生 的 机 理 , 轧钢 厂 杨 总 工 描述 了 硅钢 生产 流程 并 分 
析 了 影响 硅钢 纵 条 纹 的 因素 。X 大 学 数据 挖掘 中 心 金 教授 介绍 了 对 硅钢 纵 条 纹 问题 数 
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据 建 模 的 初步 设想 。 经 过 各 小 组 成 员 一 起 认真 分 析 认 为 ， 硅 钢 纵 条 纹 问题 有 望 通过 非 
平衡 的 分 类 方法 解决 。 最 后 ， 提 出 了 将 硅钢 纵 条 纹 比 率 由 现在 的 12.1% 降 低 到 1.8% 
的 目标 。” 


听 到 这 里 ， 赵 总 激动 了 : “要 降低 10.3 个 百分点 ， 难 啊 ! ” 


李 部 长 倒是 胸有成竹 的 样子 : “事在人为 嘛 ， 只 要 努力 就 有 成 功 的 希望 。 不 过 ， 
不 能 光 吹 牛 ， 关 键 还 在 行动 。 我 们 制定 了 详细 的 数据 挖掘 计划 ， 要 求 各 组 分 工 协作 ， 
紧密 配合 ， 争 取 在 两 个 月 内 完成 任务 。” 


“两 个 月 攻克 硅钢 纵 条 纹 难题 ， 目 标定 那么 高 ， 时 间 又 如 此 短 ， 完 不 成 任务 ,看 
你 咋 给 董事 长 交待 ! ”S 钢铁 公司 的 赵 总 替 李 部 长 捏 一 把 汗 ， 喃 喃 道 。 


李 部 长 不 慌 不 忙 地 说 : “我 们 有 目标 、 有 计划 ， 有 一 支 由 冶金 专家 和 数据 挖掘 专 
家 组 成 的 攻坚 团队 ， 更 重要 的 是 还 有 董事 长 的 大 力 支持 ， 万 事 俱 备 ， 我 们 只 需要 按照 
数据 挖掘 的 流程 一 步 一 步 坚 定 地 走 下 去 。” 


2.5.2 ”数据 理解 阶段 (Data Understanding) 


李 部 长 抬 起 右手 ， 使 劲 地 殴 击 了 一 下 笔记 本 电脑 的 回 车 键 ， 大 声 说 : “Go! 下 一 
步 我 们 进入 了 数据 挖掘 的 数据 理解 阶段 ， 请 看 大 屏幕 。” 
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跨行 业 数 据 挖掘 标准 流程 


第 2 阶段 数据 理解 
收集 数据 、 熟 悉数 据 、 识 别 数据 的 质量 问题 
和 探索 引起 兴趣 的 子 集 。 


数据 挖掘 技术 及 其 应 用 


“在 这 一 阶段 ， 我 们 根据 硅钢 纵 条 纹 产生 的 机 理 和 硅钢 生产 流程 ， 经 过 反复 得 
选 ， 初 步 确定 硅钢 纵 条 纹 的 影响 因素 有 连 铸 中 包 温 度 、 连 铸 拉 速 、 铸 坏 成 分 、 粗 轧 
出 口 温 度 、 精 轧 出 口 温 度 和 卷 取 温度 等 共 21 个 。” 李 部 长 如 数 家 珍 地 说 。 


S 钢铁 公司 的 赵 总 又 开 了 口 : “这 些 数 据 分 布 于 转炉 治 炼 、 连 铸 、 加 热 炉 加 热 、 
热 轧 粗 轧 、 热 轧 精 轧 、 常 化 / 酸 洗 、 退 火 和 剪 切 等 工序 。 据 我 所 知 ， 你 们 公司 还 未 建 
立 数据 仓库 ， 数 据 需要 从 相应 部 门 的 数据 库 中 提取 ， 这 些 部 门 可 不 一 定神 速 地 执行 你 
李 部 长 的 指令 ! ” 
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李 部 长 得 意 地 说 : “我 有 董事 长 的 尚方 宝剑 ， 底 下 哪些 小 头目 们 岂 敢 怠慢 。 我 们 
只 用 了 5 天 时 间 ， 数 据 组 就 将 数据 从 相关 部 门 收集 来 了 。 他 们 浏览 各 部 门 的 数据 ， 发 
现 数据 有 不 少 缺失 ， 甚 至 还 有 明显 的 异常 。 进 一 步 分 析 发 现 ， 有 些 影响 因素 的 数据 方 
差 特 别 小 ， 于 是 便 将 它们 认为 是 常量 。 数 据 组 一 致 认为 虽然 从 理论 上 说 这 些 因 素 对 硅 
钢 纵 条 纹 有 作用 , 但 生产 工艺 控制 命中 率 足 够 高 , 使 得 相应 的 影响 因素 数据 变化 很 小 ， 
对 硅钢 纵 条 纹 的 作用 几乎 恒定 不 变 。 于 是 将 这 些 影响 因素 删除 ， 影 响 因素 从 原来 的 
21 个 减少 到 15 个 。 最 后 ， 数 据 组 给 出 了 影响 纵 条 纹 的 因素 列表 ， 并 对 数据 具体 含义 、 
命中 目标 值 、 异 常 、 缺 失 等 进行 了 详细 的 描述 , 形成 了 《数据 收集 及 质量 检验 报告 》。” 
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2.5.3 ”数据 准备 阶段 (Data Preparation) 


李 部 长 一 口气 讲 了 这 么 多 ， 端 起 水 杯 咕噜 噜 地 喝 了 起 来 ，S 钢铁 公司 的 赵 总 趁 
机 开 了 口 : “下 面 该 到 数据 挖掘 的 第 3 阶段 了 吧 ? ” 


这 时 李 部 长 赶紧 敲 了 一 下 键盘 ， 屏 幕 出 现 ; 


跨行 业 数 据 挖 掘 标准 流程 


第 3 阶段 数据 准备 
从 收集 来 的 数据 集 选 择 必要 的 属性 (因素 ) ， 
并 按 关联 关系 将 它们 连接 成 一 个 数据 集 ， 
然后 进行 数据 清洗 

即 空 值 及 异常 值 处 理 、 离 群 值 剔除 ， 汪汪 


数据 挖掘 技术 及 其 应 用 


李 部 长 解释 说 : “数据 理解 阶段 已 经 初步 确定 ， 硅 钢 纵 条 纹 的 主要 影响 因素 有 
15 个 ， 包 含 连 铸 中 包 温 度 tL、t2、t， 连 铸 拉 速 1、v2、v3 〈 数 据 来 源 于 连 铸 数 据 
库 ) ， 铸 坏 成 分 C、Si、Mn、S、P、Al (数据 由 检 化 验 数据 库 获 得 ) ， 粗 轧 出 口 温 
度 RT0、 精 轧 出 口 温度 FT6 和 卷 取 温度 CT〈 要 从 轧钢 数据 库 提取 ) 。 这 些 数 据 可 
由 铸 坏 编号、 转炉 编号 和 硅钢 卷 号 关联 形成 一 个 数据 表 。 然 后 再 对 这 个 表 进 行 空 值 
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及 异常 值 处 理 、 离 群 值 剔除 操作 。” 


听 到 这 儿 ， 赵 总 站 了 起 来 ， 大 声 吼 道 : “ 李 部 长 ， 手 下 留情 啊 ! 我 们 S 钢铁 公 
司 开展 数据 挖掘 几 年 了 ， 数 据 仓库 都 建 了 ， 信 息 中 心 汇报 数据 准备 情况 时 从 来 没 提 
过 吻 除 数据 ! ” 


李 部 长 : “我 非常 理解 赵 总 的 心情 ， 一 般 最 好 不 要 轻易 删除 数据 ， 对 于 空 值 、 
异常 值 处 理 、 离 群 值 通常 采取 均值 、 和 迭代 回归 等 方法 进行 补缺 或 修正 处 理 ， 尤 其 在 
样本 数量 较 少 的 情况 下 更 应 当 如 此 。 不 过 经 过 1 个 多 月 的 生产 数据 积累 ， 我 们 采集 
的 数据 量 比较 充分 ， 删 除 极 少量 “ 坏 ” 样 本 对 数据 建 模 不 会 有 什么 影响 。” 


赵 总 指 了 指 屏幕 “ 李 部 长 ， 数 据 清洗 好 了 ，PPT 上 为 什么 说 还 要 进行 数据 标 
准 化 ?” 


李 部 长 笑 道 ， “这 个 问题 问 得 很 好 ， 起 初 我 也 不 知晓 其 中 的 道理 ， 听 了 XX 大 学 
Merit 数据 挖掘 中 心 金 教授 的 解释 我 才 明 白 了 其 中 的 道理 。 对 了 我 笔记 本 电脑 上 保存 
着 金 教授 对 我 公司 进行 数据 挖掘 培训 的 录像 ， 咱 们 一 起 欣赏 一 下 数据 标准 化 这 一 段 
吧 ! ” 


视频 播放 器 刚 一 关闭 ， 赵 总 就 侃侃 而 谈 自己 的 心得 体会 : “我 明白 了 ， 是 有 这 
样 的 问题 一 一 采集 的 数据 数量 级 上 相差 太 大 了 ,我 知道 铸 坏 成 分 Al、Si 为 百 分 之 堆 
点 几 ，C、S、P 为 百 分 之 零点 零 几 ， 而 粗 轧 出 口 温 度 RT0、 精 轧 出 口 温 度 FT6 和 卷 
取 温 度 CT 均 高 达 好 几 百 度 ， 如 果 不 进 行 数据 标准 化 ， 计 算 时 可 能 出 现 大 数 吃 掉 小 
数 现象 ， 导 致 得 到 的 模型 误差 太 大 。” 


李 部 长 觉得 赵 总 理解 得 还 真 够 到 位 ， 又 问 了 一 句 : “ 赵 总 ， 那 一 般 用 什么 方法 
对 数据 进行 标准 化 处 理 ? ” 


赵 总 挠 了 挠 头 : “刚才 金 教授 好 像 提 到 常用 的 数据 标准 化 方法 有 ……， 有 好 像 
“0 均值 -]1 方差 法 ”、“ 最 大 值 -最 小 值 法 ”和 “移动 小 数 点 法 ”等 。” 


李 部 长 拍手 称道 : “ 别 看 咱 赵 总 都 快 奔 5 的 人 了 ， 记 性 还 不 错 。 数 据 标准 化 通 
常 多 采用 第 一 种 方法 ， 即 将 变量 数据 化 为 “均值 为 0， 方差 为 1” 范围 内 的 数据 。” 
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赵 总 更 加 得 意 了 : “我 的 记忆 力 可 好 了 ， 我 还 记得 我 们 公司 负责 数据 挖掘 的 孟 
博士 说 过 ， 数 据 预 处 理 阶 段 太 重要 了 ， 这 一 阶段 的 工作 是 保证 整个 数据 挖掘 成 功 的 
关键 。” 


李 部 长 打 了 个 暂停 的 手势 : “说 你 胖 你 就 哼 。” 车 得 大 家 直 乐 。 


2.5.4” 建 模 阶 段 (Modeling) 


这 时 李 部 长 表情 有 点 凝重 ， 他 的 PPT 翻 开 了 新 的 一 页 : 


跨行 业 数 据 挖掘 标准 流程 


第 4 阶段 数据 建 模 
选择 应 用 不 同 的 数据 挖掘 技术 ， 并 确定 模型 最 佳 的 参数 。 
如 果 初 步 分 析 发 现 模型 的 效果 不 太 满 意 ， 

需要 再 跳 回 到 数据 准备 阶段 ， 甚 至 数据 理解 阶段 


他 指 着 大 屏幕 说 道 : “数据 挖掘 流程 的 第 4 阶段 的 数据 建 模 主 要 由 入 大 学 Merit 
数据 挖掘 中 心 完成 。 中 心 的 金 教授 说 ， 硅 钢 纵 条 纹 问 题 初步 分 析 就 是 一 个 非 平 衡 分 类 
问题 ， 可 他 们 将 几乎 所 有 的 分 类 问题 的 数学 模型 和 求解 算法 统统 试验 了 多 遍 ， 所 得 到 
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模型 的 预测 能 力 都 非常 差 。 后 来 徐 教 授 亲 自 坐镇 研讨 了 数 次 ， 发 现 硅 钢 纵 条 纹 数据 集 
不 仅 是 非 平衡 数据 集 ， 而 且 是 不 相 容 数据 。” 

赵 总 有 点 诈 异 :“ 李 部 长 ， 非 平衡 数据 集 你 刚才 提 过 , 现在 又 冒 出 个 不 相 容 数 据 ， 
这 到 底 是 什么 意思 呢 ? ” 


李 部 长 侃侃 而 谈 : “硅钢 生产 是 非常 复杂 的 生产 过 程 ， 产 生 纵 条 纹 的 影响 因素 很 
多 , 为 了 简化 问题 和 方便 数据 获取 , 我 们 忽略 了 一 些 对 纵 条 纹 作 用 相对 较 小 的 影响 因 
素 ， 这 样 就 会 存在 很 多 硅钢 产品 ， 其 影响 纵 条 纹 的 因素 非常 相同 或 相近 ， 但 纵 条 纹 的 
类 别 完全 相反 。 这 样 的 样本 称 为 不 相 容 样本 ， 相 应 的 数据 集 称 为 不 相 容 数据 集 。” 


多 数 类 分 布 


少数 类 分 布 
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赵 总 从 李 部 长 手 上 拿 过 光 笔 ， 指 向 图 上 的 红 点 : “ 李 部 长 ， 这 些 红 点 大 部 分 中 还 
套 有 蓝 色 的 “+” 号 ， 是 不 是 这 些 样本 就 是 不 相 容 数据 ? ” 


李 部 长 点 了 点 头 ， 连 声 说 : “对 ， 对 。” 
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S 钢铁 公司 的 赵 总 对 这 张 数据 示意 图 极为 感 兴趣 :“ 我 是 X 大 学 计算 机 系数 据 控 
气 专 业 研究 生 毕 业 ， 从 事 数据 控 气 工作 也 有 五 、 六 年 了 ， 据 我 了 解 ， 对 非 平衡 数据 分 
类 问题 的 研究 近 十 年 来 一 直 是 国内 外 很 多 学 者 关注 的 热点 ,而 不 相 容 数 据 建 模 问题 却 
少 有 人 研究 。 李 部 长 ， 请 您 介绍 一 下 对 硅钢 纵 条 纹 问题 的 数据 建 模 方法 吧 。” 

李 部 长 有 些 为 难 的 样子 : “这 个 我 可 说 不 好 ， 不 过 大 概 思想 我 还 是 清楚 的 。” 他 
向 赵 总 要 回 光 笔 ， 将 光 点 指向 图 的 左下 方 ， 继 续 说 道 ; “不 知 大 家 留心 没有 ， 图 的 左 
下 方 全 是 蓝 色 的 “+， 号 ， 代 表 这 一 片区 域 都 是 正品 ， 是 生产 的 “ 优 区 ，， 右 上 方 蓝 
色 和 红色 交 硬 ， 表 明 这 部 分 区 域 次 唱 正 品 都 有 ， 是 生产 的 “ 劣 区 ，。 我 们 只 要 “使 生 
产 在 优 区 进行 ， 的 规则 就 行 了 。” 

尚 主任 眉飞色舞 , 激动 地 拍 了 一 下 桌子 : “有 道理 ! 快 讲 一 下 具体 是 如 何 建 模 的 。” 

李 部 长 笑 道 “你 就 别 起 网 子 上 架 了 。 两 年 前 ， 金 教授 曾经 代表 义 大 学 Merit 数 
据 挖掘 研究 中 心 详细 地 介绍 了 对 硅钢 纵 条 纹 问题 建立 的 数学 模型 和 设计 的 求解 算法 ， 
我 只 记得 叫 作 工 1 正则 化 模型 ……， 我 找 一 下 金 教授 当时 的 PPT。” 


找到 了 以 后 ， 李 部 长 接着 说 : “对 了 ， 他 们 先 提出 了 一 种 新 的 分 类 准则 ， 称 为 支 


< 是 和 = 


持 度 最 大 化 准则 ， 即 分 类 器 分 出 的 “ 优 区 ”的 样本 尽 可 能 的 多 。 还 提出 了 实现 支持 度 
最 大 化 准则 的 代价 敏感 损失 函数 ， 在 此 基础 上 才 建 立 了 消除 硅钢 纵 条 纹 缺 陷 的 L1 正 
则 化 模型 ， 还 创新 性 地 设计 了 求解 该 模型 的 工 1 稀疏 欠 代 算法 。” 


尚 主任 眉头 越 来 越 紧 : “且慢 ， 且 慢 ! 我 越 来 越 听 不 懂 了 ， 您 还 是 说 详细 点 吧 。” 


李 部 长 干脆 拿 起 粉笔 , 在 黑板 上 写 了 一 个 电子 邮箱 的 地 址 : wfjin@hotmail.com ， 
说 道 ，“ 我 也 是 只 知道 几 个 名 词 而 已 ， 大 家 谁 对 这 个 方法 感 兴趣 的 话 , 给 金 教授 发 电 
子 邮件 联系 。 他 这 个 人 可 热情 了 ， 有 问 必 答 。” 


尚 主任 高 兴 地 叫 道 : “ 那 好 ， 这 个 周末 我 就 去 拜见 金 教授 。” 


李 部 长 将 PPT 又 翻 了 一 页 ， 屏 幕 上 出 现 了 一 个 图 ,他 指 着 这 个 图 说 : “你 去 的 时 
候 最 好 带 着 这 张 图 ， 金 教授 看 见 这 个 图 就 会 高 兴 得 很 。” 
880 | 
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尚 主任 不 解 地 问 : “难道 这 是 一 张 联络 图 ? ” 
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李 部 长 笑 道 :“ 这 是 硅钢 纵 条 纹 问题 模型 求解 结果 的 展示 图 , 谁 看 了 它 都 赞叹 不 已 。” 
尚 主任 更 感 兴趣 了 : “ 那 您 就 给 大 家 解释 一 下 这 张 图 表示 的 意义 吧 ! ” 


李 部 长 的 光 笔 指 向 图 中 间 的 直线 : “这 条 线 就 是 模型 求解 得 出 的 生产 “ 优 区 ”和 
“ 劣 区 ”的 分 界线 ， 线 的 左面 全 是 正品 ， 优 区 样本 的 数量 对 所 有 样本 的 比率 《〈 即 支持 
度 ) 高 达 49.11%。 如 果 将 生产 控制 在 优 区 进行 , 就 会 极 大 降低 硅钢 纵 条 纹 出 现 的 几率 。” 


尚 主任 激动 不 已 ， 连 声 赞 道 : “原来 如 此 ， 妙 ， 妙 ! ” 


2.5.5 ”模型 评估 阶段 (Evaluation) 


李 部 长 右手 一 挥 ， 使 劲 地 敲 击 了 一 下 键盘 ， 并 说 : “ 妙 什 么 蚜 ! 还 没有 进行 模型 
评估 呢 ! 请 看 屏幕 。” 


跨行 业 数据 挖掘 标准 流程 


第 5 阶段 建 模 评估 
主要 对 建立 的 模型 进行 可 靠 性 评估 和 合理 性 解释 。 


数据 挖掘 技术 及 其 应 用 


二 本 = 


李 部 长 说 : “模型 评估 是 至 关 重 要 的 一 个 环节 ， 未 经 过 评估 的 模型 千 万 不 可 直接 
就 去 应 用 。 因 为 所 得 出 的 模型 只 是 通过 已 有 的 数据 得 出 , 对 未 来 数据 的 预测 能 力 如 何 ， 
一 定 要 经 过 实践 的 检验 。” 


S 钢铁 公司 的 赵 总 顺口 便 问 : “ 那 你 们 是 如 何 检验 所 得 到 的 “ 优 区 ”和 “ 劣 区 ” 
分 界线 的 可 信 度 ? ” 

李 部 长 兴高采烈 地 说 : “真是 功夫 不 负 有 心 人 呐 ， 后 来 半 个 月 生产 所 出 现 的 纵 条 
纹样 本 全 部 落 到 了 “ 劣 区 ”。?” 

沉默 好 久 的 尚 主任 又 问 了 一 个 关键 性 的 问题 : “所 得 到 的 “ 优 区 ”和 “ 劣 区 ”分 
界线 的 可 解释 性 怎么 样 ? ” 


李 部 长 不 慌 不 忙 地 说 : “我 们 获得 的 分 界线 〈 即 分 类 器 ) 是 线性 的 ， 我 们 可 以 根 
据 每 一 个 变量 前 面 的 系数 的 正 负 判断 其 对 纵 条 纹 是 正面 影响 还 是 负面 影响 , 依据 其 绝 
对 值 的 相对 大 小 衡量 相应 的 变量 对 纵 条 纹 的 作用 大 小 。 从 分 类 器 的 表达 式 容易 看 出 ， 
Si、FT6、Al 和 了 为 硅钢 纵 条 纹 的 主要 影响 因素 ， 这 与 理论 分 析 的 定性 结论 相符 。” 


尚 主任 眼睛 一 亮 ， 大 声 叫 道 : “那么 ， 下 一 步 就 可 以 放心 地 跨 入 数据 挖掘 的 部 署 
阶段 了 ! ” 


2.5.6 ”部 署 阶段 (Deployment) 


李 部 长 点 了 一 下 鼠标 ， 喊 道 : “下 一 步 ， 部 署 阶段 。” 
屏幕 上 出 现 了 如 下 画面 : 
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跨行 业 数 据 挖掘 标准 流程 


第 6 阶段 部 署 阶段 
根据 评估 后 认为 合理 的 模型， 


数据 控 所 技术 及 其 应 用 


李 部 长 : “我 们 将 原来 生产 控制 策略 中 影响 硅钢 纵 条 纹 的 15 个 因素 的 命中 目标 
值 代 入 所 得 到 的 分 类 器 中 ,发 现 它 正 好 位 于 “ 优 区 ”和 “ 劣 区 ”分 界线 偏 右 处 。 可 见 ， 
这 正 是 硅钢 纵 条 纹 比率 高 的 原因 。 为 了 保持 生产 的 稳定 进行 ,我们 只 对 硅钢 纵 条 纹 影 
响 最 大 的 4 个 因素 的 命中 目标 值 作 了 调整 ， 将 调整 后 的 15 个 影响 因素 的 目标 值 代入 
所 得 的 分 类 器 中 ， 结 果 落 入 “ 优 区 ”和 “ 劣 区 ”分 界线 的 左 侧 。” 


尚 主任 : “这 么 说 新 的 生产 控制 策略 是 可 行 的 ? ” 


李 部 长 : “我 们 将 一 个 半月 来 的 数据 挖掘 工作 进行 了 详细 总 结 ， 最 后 完成 了 《应 
用 部 署 报 告 》， 上 报 公司 领 导 批 准 实施 改进 的 生产 控制 策略 。” 


“领导 反映 怎么 样 ? ” 尚 主任 急切 地 问 。 


= 


李 部 长 尔 销 有 力 地 回答 道 :董事 长 召集 公司 技术 中 心 硅钢 研究 室 的 几 位 研究 员 、 
硅钢 生产 线 的 主要 技术 人 员 和 国内 著名 硅钢 专家 W 钢铁 公司 的 施 总 工 对 我 们 改进 的 
控制 策略 进行 了 反复 论证 ， 最 后 同意 了 我 们 的 方案 。” 


“实施 结果 怎么 样 ? ” 尚 主任 迫不及待 地 追问 。 


“功夫 不 负 有 心 人 , 我 们 成 功 了 , 新 方法 效果 明显 。 一 个 月 后 统计 结果 令 人 振奋 ， 
硅钢 纵 条 纹 的 比率 降低 到 了 1.65%， 产 品 的 各 项 性 能 指标 达到 了 国际 先进 水 平 。 真 是 
“靓女 不 愁 嫁 ”， 三 个 月 后 ， 我 公司 各 种 牌号 的 硅钢 在 国内 外 市 场 成 了 抢手 货 。” 李 
部 长 越 说 越 激动 。 


李 部 长 话音 刚 落 ， 教 室 里 便 响 起 了 一 阵 热 烈 的 掌声 。 
2.6 李 部 长 的 展望 


经 过 纵 条 纹 数据 挖掘 项 目的 实施 ， 李 部 长 再 一 次 成 为 公司 的 名 人 ,但 他 并 没有 沉 
渴 于 成 功 的 喜悦 中 , 他 思考 着 如 何 利用 数据 挖掘 做 更 大 的 事 , 为 公司 谋取 更 大 的 利益 。 

李 部 长 和 数据 挖掘 公司 的 卢 经 理 促 膝 长 谈 了 一 次 , 觉得 数据 挖掘 技术 在 钢铁 行业 
的 应 用 不 仅 限 于 质量 控制 。 企 业 建 立 起 的 生产 过 程 实时 数据 库 、ERP 系统 等 每 天 数据 
量 以 3Gb 增加 ， 数 据 越 来 越 丰富 ， 应 尽快 建立 数据 仓库 。 经 过 一 翻 交流 后 ， 卢 总 给 李 
部 长 拿 出 了 企业 级 数据 挖掘 系统 规划 方案 : 
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利用 数据 挖掘 技术 实时 建 模 ， 可 以 快速 实现 企业 产品 研发 、 设 备 状态 监控 、 生 产 
过 程 优化 、 生 产 参 数控 制 等 功能 。 李 部 长 此 时 心中 充满 了 对 企业 未 来 的 信心 ， 决 心 在 
数据 应 用 方面 走 在 其 他 钢铁 企业 的 前 列 ， 把 握 住 数 据 先 机 才能 赢 取 企业 未 来 。 

卢 经 理 诚恳 地 表达 了 实现 企业 级 数据 挖掘 系统 的 看 法 , 指出 对 于 像 工 钢铁 公司 这 
样 向 世界 500 强 进 军 的 企业 ， 需 要 将 数据 挖掘 的 第 一 步 走 得 扎 扎实 实 : 首先 要 对 全 公 
司 的 各 种 系统 的 数据 库 系统 集成 ， 建 立 企业 数据 仓库 ， 为 快速 、 有 效 地 进行 数据 挖掘 
打 好 坚实 的 基础 。 


后 来 ,了 钢铁 公司 与 卢 经 理 的 公司 全 面 合作 ， 在 钢铁 企业 建立 了 国内 首 家 数据 挖 
掘 应 用 研究 中 心 。 


2011 年 初 ， 李 部 长 五 十 岁 生日 也 是 公司 企业 级 数据 挖掘 系统 成 功 通过 验收 的 日 
子 。 李 部 长 深 知 企业 级 数据 挖掘 系统 的 建立 是 公司 发 展 史上 的 里 程 碑 ， 为 企业 更 快 、 
更 好 的 发 展 注入 了 新 的 活力 。 


二 


数据 挖 所 


OEED 
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“上 一 讲 李 部 长 以 其 亲身 经 历 介绍 了 数据 挖 握 的 流程 ， 相 信 大 家 对 数据 挖 据 的 
过 程 有 所 了 解 了 。 接 下 来 ， 我 们 将 开始 一 起 讨论 数据 挖 据 在 电力 、 交 通航 空 、 冶 金 、 
银行 与 税务 、 军 工 等 行业 和 故障 诊断 领域 的 应 用 。” 徐 教授 边 说 边 打开 电脑 。 


“ 徐 老师 ,俗话 说 近水楼台 先 得 月 ,您 就 从 数据 挖 气 在 电力 行业 的 应 用 讲 起 吧 !” 
坐 在 教室 第 一 排 的 电力 公司 马 处 长 抢 着 说 。 


“数据 挖 气 在 电力 行业 有 什么 用 处 呢 ? ”有 学 员 问 。 
徐 教授 解释 说 : “数据 挖掘 在 电力 行业 应 用 前 景 可 大 了 ， 请 看 大 屏幕 ! ” 


数据 挖掘 在 电力 行业 的 应 用 前 景 


(1) 电力 设备 寿命 管理 
(2) 电力 系统 规划 设计 
(3) 电力 设备 故障 诊断 
(4) 给 变 电 设备 状态 检修 
(5) 电力 暂 态 稳定 性 评估 
(6) 电力 市 场 用 户 特 征 分 析 
(7) 电力 负荷 预测 ~ 


3.1 应 用 前 景 


看 着 屏幕 上 的 内 容 ， 马 处 长 激动 万 分 : “我 国电 力 系统 的 信息 化 从 20 世纪 60 
年 代 起 步 ， 最 初 主要 集中 在 发 电厂 和 变电站 自动 监测 方面 。20 世纪 80 一 90 年 代 各 
种 专项 业务 应 用 系统 〈 如 电网 调度 自动 化 、 电 力 负荷 控制 、 计 算 机 辅助 设计 、 计 算 
机 仿真 系统 等 ) 陆续 投入 使 用 。20 世纪 末 电 力 信息 技术 进一步 发 展 到 综合 应 用 ， 由 
操作 层 向 管理 层 延伸 ， 办 公 自 动 化 (OA) ，MIS 系统 、 电 力 市 场 和 营销 系统 、 能 量 
管理 系统 (EMS) ， 配 电 管 理 系统 (DMS) 、 呼 叫 中 心 〈Call Center) 以 及 电力 自 
动 化 管理 系统 已 广泛 应 用 。” 


停 了 片刻 后 ， 马 处 长 继续 说 : “这 些 系 统 每 天 都 在 产生 大 量 的 数据 ， 尤 其 是 
SCADA 系统 时 刻 都 在 对 现场 的 运行 设备 进行 监视 和 控制 ， 实 现 数 据 采 集 、 设 备 控 
制 、 测 量 、 参 数 调节 以 及 各 类 信和 号 报警 等 功能 。 对 这 些 数据 我 们 如 果 采 用 传统 方法 
去 处 理 , 不 能 对 其 进行 深层 次 分 析 而 从 中 提取 有 用 的 信息 , 企业 的 管理 水 平 也 得 不 到 
根本 提高 。 另 一 方面 ， 我 们 昌明 知 这 些 数据 中 蕴藏 着 重要 信息 ， 但 由 于 缺乏 从 数据 
库 中 提取 有 价值 知识 的 工具 , 许多 重要 的 决定 通常 不 是 根据 数据 库 中 信息 丰富 的 数 
据 ， 而 是 赁 自身 经 验 和 直觉 做 出 的 。 数 据 和 信息 之 间 的 鸿沟 我 们 一 直 无 法 跨越 。” 


马 处 长 刚 一 口气 讲 了 太 多 ， 端 起 茶杯 猛 饮 了 几 口 ， 接 着 说 道 , “今天 ， 我 特别 
高 兴 ， 我 看 到 了 人 徐 老师 总 结 出 的 电力 行业 连接 数据 与 信息 的 这 座 桥梁 。” 


看 着 马 处 长 激动 地 样子 ， 徐 教授 说 : “ 马 处 长 ， 据 我 所 知 ， 我 国 很 多 省 包括 你 
们 省 建立 了 电力 数据 中 心 ， 一 直 企图 利用 这 些 数据 宝库 为 企业 的 重大 决策 、 降 低 成 
本 和 优化 运行 提供 科学 的 、 有 前 瞻 性 的 决策 依据 。 但 由 于 缺乏 数据 挖 握 人 才 而 难以 
形成 有 一 定 实力 的 研究 与 应 用 团队 , 电力 数据 中 心 的 功能 至 今 无 法 得 到 充分 发 挥 。” 


听 了 徐 教授 的 这 番 话 ， 马 处 长 脸 上 热 辣 辣 的 ， 不 好 意思 地 说 : “ 徐 老师 ， 我 们 
省 的 电力 数据 中 心 就 是 我 一 手 负责 建立 起 来 的 。 不 瞒 您 说 ， 我 这 个 兼职 的 中 心 主任 
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实在 无 法 再 兼 下 去 了 , 人 家 在 背后 窃窃 私语 , 说 我 建 的 是 数据 坟墓 , 还 喊 我 马 园 长 。 


徐 教授 : “哈哈 ， 我 终于 明白 了 一 件 事情 。 在 这 期 EMBA 班 开 学 前 ， 你 们 省 电 
力 公司 的 陈 总 打 电 话 问 我 是 否 要 给 这 个 班 上 数据 挖掘 课 ， 如 果 是 的 话 ， 他 就 安排 马 
主任 去 学 习 ， 原 来 马 处 长 就 是 马 主任 。” 

“ 徐 老师 ,其 实 我 参加 EMBA 班 的 目的 主要 是 为 了 跟 您 学 习 数 据 挖掘 ， 和 希望 得 
到 使 数据 坟 莫 起死回生 为 知识 宝库 的 法 宝 ， 扔 掉 园 长 这 项 帽子 ! ” 马 主任 终于 有 了 
释放 胸中 郁闷 的 时 机 。 


徐 教授 : “好 吧 ， 那 我 们 就 开始 探讨 数据 挖 气 在 电力 行业 的 应 用 ， 帮 助 马 处 长 
扔 掉 这 项 谁 都 不 愿意 戴 的 帽子 吧 ! 不 过 ， 马 处 长 ， 你 可 要 与 大 家 紧密 配合 。” 


“当然 了 ， 大 家 帮 我 ， 我 肯定 给 力 了 。 今 天 晚上 我 请 咱们 全 班 同学 去 吃 渭南 水 
贫 大 肉 。” 马 处 长 更 来 劲 了 。 


徐 教授 将 光 笔 指 向 屏幕 : “ 马 处 长 ， 我 们 就 从 数据 挖掘 在 电力 设备 寿命 管理 中 
的 应 用 开始 讨论 吧 。 请 你 先 给 大 家 介绍 一 下 什么 是 电力 设备 寿命 管理 。” 


马 处 长 背诵 如 流 : “寿命 管理 就 是 在 对 设备 进行 监测 和 评估 的 基础 上 优化 其 运 
行 和 检修 管理 ， 降 低 设备 寿命 周期 费用 。 对 于 资金 密集 型 设备 ， 控 制 好 寿命 损耗 率 
意义 重大 。 寿 命 管理 最 关键 最 基础 的 要 求 是 科学 地 评价 材料 的 状态 。” 

徐 教授 点 评 道 : “但 是 传统 的 数据 分 析 处 理 方法 不 能 有 效 利用 现 有 数据 而 准确 评 
价 材料 的 状态 。 采 用 数据 挖掘 技术 ， 通 过 神经 网 络 、 决 策 树 、 关 联 规则 、 正 则 化 方法 
等 手段 , 建立 非 线性 预测 、 分 类 模型 来 研究 常用 材料 在 长 期 使 用 中 的 老化 和 损伤 规律 ， 
并 且 把 上 述 规律 和 设备 的 运行 状态 结合 起 来 ， 从 而 提高 状态 评估 的 客观 性 、 准 确 性 ， 
科学 地 进行 电力 设备 的 寿命 管理 。” 

徐 教授 一 下 子 讲 出 了 这 么 多 的 数据 挖 据 方法 ， 马 处 长 一 时 不 知 所 云 ， 焦 急 不 安 地 
说 : “这 么 多 方法 ， 我 们 喻 时 候 能 学 会 呀 ! ” 


徐 教授 安慰 马 处 长 道 :， “这 些 方法 的 基本 思想 我 们 在 以 后 的 课程 会 陆续 介绍 。 
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马 处 长 ， 你 是 将 军 还 是 兵 娃 子 ， 将 军 的 职责 是 指挥 作战 ， 所 以 你 只 要 明白 这 些 方法 
的 基本 原理 ， 成 为 数据 挖掘 的 将 军 ， 内 行 地 领导 工程 师 们 进行 数据 挖掘 就 行 了 。” 


马 处 长 终于 松 了 一 口气 : “好 ， 争 取 学 完 这 门 课程 ， 我 能 够 成 为 一 位 合格 的 数 
据 挖掘 将 军 。 我 就 不 纠结 数据 挖掘 方法 的 实现 细节 了 。 徐 老师 ， 电 力 系统 规划 设计 
方面 怎样 应 用 数据 挖掘 技术 ? ” 


徐 教授 耐心 地 解答 说 :“ 电 力 系统 规划 设计 的 目的 是 取得 有 效 的 系统 规划 结果 ， 
在 进行 规划 设计 时 就 必须 考虑 由 负荷 模型 不 同 引起 的 系统 多 种 结构 及 在 每 种 结构 下 
可 能 出 现 的 故障 ， 由 此 制定 出 保证 系统 安全 稳定 运行 的 规划 策略 ， 如 确定 相应 的 临 
界 运行 参数 和 稳定 域 ， 确 定 保护 和 控制 装置 的 参数 。 在 此 过 程 中 ， 数 据 的 处 理 量 是 
巨大 的 。 数 据 挖掘 正 是 一 个 利用 各 种 分 析 工 具 在 海量 数据 中 发 现 模型 和 数据 间 关 系 
的 过 程 , 这 种 模型 和 数据 间 的 关系 可 被 用 来 制定 系统 正常 情况 下 的 运行 法 则 和 发 生 
故障 时 的 应 对 策略 。 因 此 ， 数 据 挖掘 技术 可 被 用 于 电力 系统 的 规划 设计 。” 


马 处 长 : “我 回去 后 就 给 规划 处 建议 ， 让 他 们 立 一 个 电力 系统 的 规划 设计 的 数据 
挖掘 方法 项 目 。” 


“ 马 处 长 ， 先 别 急 着 立项 ， 数 据 挖掘 在 电力 系统 应 用 场合 多 着 呢 。 电 力 系统 故 
障 分 析 也 是 一 个 很 有 潜力 的 用 途 方向 。” 徐 教授 说 。 


“ 徐 老师 ， 那 您 就 赶快 给 我 们 讲 讲 吧 ! ” 马 处 长 急切 地 想 知 道 。 


徐 教授 : “电力 系统 的 故障 受理 系统 在 业务 处 理 中 积累 了 大 量 数据 ， 可 以 利用 
数据 挖掘 技术 将 这 些 数据 中 殖 藏 着 的 许多 潜在 的 重要 因素 、 事 实 和 关联 等 有 价值 的 
信息 提炼 出 来 。 例 如 ， 可 运用 数据 挖掘 中 的 关联 分 析 法 分 析 故 障 发 生 原 因 同 其 他 因 
素 的 相关 性 ， 如 故障 和 对 其 影响 很 大 的 温度 、 雨 量 、 和 雷暴、 负荷 等 因素 之 间 的 关系 ， 
从 而 使 故障 分 析 符 合 事物 的 客观 规律 ， 再 运用 序列 模式 分 析 方法 找 出 几 类 重要 的 、 
常 发 生 故 障 的 、 具 有 相同 模式 的 部 件 ， 再 按 分 类 分 析 法 定义 出 常 发 生 故 障 部 件 的 分 
类 标准 ， 即 故障 模式 ， 最 后 用 故障 模式 作为 分 析 规 则 ， 运 用 聚 类 分 析 法 找 出 在 该 模 
式 下 尚未 发 生 故 障 的 部 件 ， 作 为 重点 预 维 修 的 参考 , 实现 可 靠 的 安全 管理 。” 
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“ 徐 老师 ， 我 看 您 PPT 上 还 有 “电力 市 场 用 户 特征 分 析 ”， 您 再 给 我 们 介绍 一 
下 数据 挖 所 在 这 方面 的 应 用 吧 。” 马 处 长 极为 关注 这 个 应 用 方向 。 


徐 教授 : “好 吧 。 从 1990 年 开始 ， 我 国 的 电力 系统 就 告别 了 计划 经 济 模式 ， 电 
力 企业 也 走向 了 电力 市 场 ， 电 力 用户 可 以 选择 供应 方 和 贸易 方式 。 因 此 从 供电 方 来 
说 ， 它 自身 是 商家 ， 而 用 户 是 消费 者 。 在 市 场 营销 中 ， 商 家 为 节省 营销 成 本 获得 更 
多 的 利润 ， 应 该 通过 收集 、 加 工 和 处 理 消 费 者 的 大 量 信息 确定 特定 消费 群体 和 消费 
需求 ， 进 而 推断 出 消费 群体 下 一 步 的 消费 行为 。 然 后 以 此 为 基础 ， 对 识别 出 来 的 消 
费 群 体 进行 特定 内 容 的 定向 营销 。 同 样 在 电力 市 场 中 ， 供 电 方 也 必须 在 对 用 户 负荷 
的 特性 充分 了 解 的 基础 上 ， 对 用 户 的 行为 分 门 别 类 ， 从 而 在 保证 系统 安全 稳定 运行 
的 前 提 下 ， 人 制定 出 有 竞争 力 的 供电 策略 。 考 虑 到 电力 系统 自身 特点 ， 供 电 方 还 应 制 
定 有 效 的 负荷 管理 策略 ， 调 整 负荷 曲线 的 形状 ， 降 低 对 峰 荷 的 要 求 ， 节 约 能 源 。 上 
述 工作 都 可 以 采用 数据 挖掘 技术 进行 。” 

马 处 长 越 听 越 觉得 糊涂 ， 直 截 了 当地 大 发 感慨 : “ 徐 老师 ， 数 据 挖 掘 在 电力 行 
业 真是 太 有 用 武之 地 了 ， 可 就 是 用 到 的 数据 挖 气 技术 太 多 ， 我 真是 丈 二 和 尚 摸 不 着 
头脑 ! 其 他 同学 也 应 该 与 我 差不多 。” 

徐 教授 温和 地 说 : “大 家 不 用 着 急 ， 我 为 你 们 准备 了 大 量 行业 领域 数据 挖掘 的 
应 用 实例 ， 以 后 课程 且 听 我 慢 慢 分 解 ， 相 信 你 们 逐步 会 明白 数据 挖掘 的 奥秘 ! ” 


李 部 长 知道 ， 徐 教授 肩负 973 首席 科学 家 的 重任 ， 科 研 任务 那么 繁重 ， 还 对 数 
据 挖 气 这 么 “平凡 ”的 课程 付出 如 此 巨大 的 心血 ， 情 不 自 禁 道 : “ 徐 老师 ， 您 为 我 
们 上 课 花 了 太 多 的 功夫 ， 我 们 大 家 真是 过 意 不 去 。” 


李 部 长 这 么 一 说 ， 徐 教授 也 激动 了 : “我 们 国家 在 数据 挖掘 研究 方面 可 以 说 基 
本 与 国际 同步 ， 甚 至 有 些 研究 领域 处 于 国际 领先 地 位 ， 但 是 我 们 在 数据 挖掘 的 应 用 
方面 ， 普 及 率 太 令 人 不 安 了 。 在 这 门 课 的 开场 白 中 ， 我 不 是 希望 大 家 一 起 为 建设 创 
新 型 国家 做 贡献 吗 ! 我 觉得 , 我 这 样 的 付出 非常 值得 ， 因 为 这 就 是 我 的 具体 行动 ! ” 


= 


徐 教授 话音 刚 落 ， 全 体 学 员 都 站 了 起 来 ， 一 阵 长 时 间 的 掌声 ， 淹 没 了 下 课 的 铃 


3.2 电力 设备 状态 检修 


上 课 铃 响 了 ， 徐 教授 径直 走 上 讲台 说 : “这 一 节 ， 我 们 一 起 讨论 数据 挖掘 技术 
在 电力 行业 的 应 用 ， 你 们 会 越 来 越发 现 数据 挖 据 的 无 穷 手 力 。 首 先 我 们 探讨 数据 挖 
掘 在 电力 设备 状态 检修 中 的 应 用 。 马 处 长 ， 你 是 电力 公司 管 设备 的 ， 给 大 家 介绍 一 
下 什么 是 状态 检修 吧 。” 


马 处 长 依旧 坐 在 第 一 排 ， 站 起 来 说 ，“ 唉 ， 不 怕 大 家 笑话 ， 因 为 前 段 时间 一 台 
330KV 变压器 出 现 了 故障 ， 导 致 大 面积 停电 ， 我 已 被 降 为 副 处 长 了 。 大 家 还 喊 我 马 
处 长 ， 我 也 不 好 意思 解释 。” 


李 部 长 为 马 处 长 打 抱 不 平 : “ 马 处 长 就 是 马 处 长 ， 你 就 是 被 降 为 科 长 我 们 大 家 
还 叫 你 马 处 长 。 在 你 们 电力 公司 谁 人 不 知 ， 你 以 公司 为 家 ， 任 劳 任 忽 ， 敢 于 担当 风 
险 ， 不 计 个 人 得 失 ， 干 得 越 多 出 差错 的 可 能 性 就 越 大 。” 


S 钢铁 公司 的 赵 总 也 开 了 口 : “ 马 处 长 ， 别 气 包 ! 你 们 省 电力 公司 的 陈 总 叫 你 
来 EMBA 班 学 习 的 目的 是 司马 昭 之 心路 人 和 皆 知 ， 他 希望 你 从 哪儿 跌倒 从 哪儿 疏 起 来 。 
从 我 们 这 个 班 毕业 ， 你 的 管理 能 力 当然 会 提升 到 一 个 新 的 高 度 。 重 要 的 是 ， 跟 徐 教 
授 学 好 了 数据 挖掘 ， 并 在 你 们 电力 行业 付 诸 应 用 。 特 别 是 电力 设备 状态 检修 方面 ， 
只 要 勇敢 地 实践 ， 在 国内 做 到 首届 一 指 ， 并 努力 赶 上 甚至 超过 国际 先进 水 平 。 这 样 ， 
马 处 长 的 宝座 ， 不 ， 是 副 总 的 位 子 自然 非 你 莫 属 了 。?” 


马 处 长 摆 了 摆手 :“ 别 拿 我 开心 了 , 我 还 是 开始 给 大 家 介绍 什么 是 状态 检修 吧 。” 


“ 马 处 长 ,好 像 在 状态 检修 应 用 之 前 很 长 时 期 电力 部 门 实行 的 是 定期 检修 吧 ? ” 
李 部 长 问 。 
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马 处 长 抱怨 道 ， “定期 检修 ， 累 死人 了 。 我 才 毕 业 参 加 工作 那 几 年 ， 实 行 的 是 
计划 检修 ， 我 师傅 带 我 一 年 四 季 都 在 忙于 设备 检修 。 长 期 以 来 ， 我 国 对 电力 设备 的 
检修 策略 主要 采用 以 时 间 为 标准 的 定期 维修 。 虽 然 定期 维修 一 般 可 在 维修 时 发 现 设 
备 存在 的 缺陷 ， 对 保证 设备 安全 运行 发 挥 了 重大 作用 。 但 是 ， 定 期 维修 存在 “维修 
过 剩 ” 和 “维修 不 足 ”的 缺陷 。 不 仅 造成 部 分 设备 盲目 检修 ， 导 致 人 力 和 物力 的 大 
量 浪费 ， 而 且 增加 了 产生 新 隐患 的 几率 ， 降 低 了 供电 可 靠 性 。” 


贾 总 经 理 说 : “ 马 处 长 ， 大 家 都 知道 定期 检修 已 经 成 为 历史 了 ， 在 当前 电力 企 
业 走向 市 场 的 形势 下 ， 用 状态 检修 的 模式 代替 传统 定期 检修 制度 是 电力 企业 自身 发 
展 的 必然 趋势 。 那 么 状态 检修 到 底 是 怎么 一 回 事 ?” 


绕 了 这 么 一 大 圈 ， 马 处 长 终于 切入 主题 “状态 检修 是 以 设备 的 当前 实际 工作 
状况 为 依据 ， 通 过 先 进 的 状态 监测 手段 、 可 靠 的 评价 手段 和 寿命 的 预测 手段 来 判断 
设备 的 状态 , 并 识别 故障 的 早期 征兆 ， 从 而 根据 分 析 诊断 结果 在 设备 性 能 下 降 到 一 
定 程度 或 故障 将 要 发 生 之 前 进行 维修 。” 


听 了 马 处 长 对 状态 检修 的 介绍 ， 李 部 长 抓 住 了 问题 的 关键 : “这 么 说 状态 评估 
是 电力 设备 状态 检修 的 基础 ， 状 态 评估 采用 什么 方法 呢 ? ” 


人 徐 教授 概括 道 ，“ 随 着 状态 检修 理论 的 研究 与 应 用 ， 设 备 状态 综合 评估 技术 得 
到 了 国内 外 研究 机 构 和 电力 企业 的 深切 关注 ， 纷 纷 展开 对 电力 设备 状态 评估 方法 的 
研究 ， 但 仍 处 于 探索 阶段 。 近 十 几 年 来 ， 数 据 挖掘 的 新 方法 不 断 涌现 ， 为 设备 状态 
评估 提供 了 新 的 思路 。 采 用 数据 挖掘 技术 ， 对 设备 的 监测 、 试 验 数据 进行 分 析 ， 揭 
示 电 力 设备 性 能 状态 渐变 和 寿命 损耗 的 规律 ， 及 时 、 准 确 地 发 现 潜在 故障 的 早期 征 
兆 ， 快 速 对 故障 部 位 严重 程度 及 发 展 趋势 做 出 判断 ， 确 定 科学 的 检修 计划 。” 


李 部 长 听 完 ， 似 乎 受到 了 一 些 启发 ， 问 道 : “在 电力 系统 ， 一 般 对 哪些 设备 进 
行 状 态 检 修 ? ” 


马 处 长 不 假 思索 地 答 道 : “这 可 多 了 ， 发 电厂 设备 、 变 电站 设备 、 输 电线 路 和 
配 电 设备 ， 只 要 能 够 反馈 有 效 工作 数据 的 重要 设备 都 可 以 施行 状态 检修 。” 
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李 部 长 即刻 兴奋 起 来 : “我 明白 了 , 电力 设备 的 状态 检修 方法 可 以 推广 到 钢铁 、 
化 工 、 铁 路 、 航 空 航天 、 制 药 、 电 子 等 制造 型 企业 ， 数 据 挖掘 技术 可 大 有 用 武之 地 
本 


徐 教 授 : “这 几 年 ， 各 行 各 业 都 开始 关注 数据 挖掘 技术 的 应 用 ， 到 我 这 儿 咨询 
的 人 越 来 越 多 。” 


马 处 长 : “ 徐 老师 ， 您 能 不 能 以 一 种 典型 设备 为 例 ， 详 细 讲 解 一 下 应 用 数据 挖 
掘 技术 进行 设备 状态 检修 的 具体 方法 ? ” 


“好 吧 ， 变 压 器 作为 输 配 电网 的 主要 枢纽 设备 ， 其 安全 可 靠 性 尤为 重要 。 我 们 
就 一 起 探讨 变压器 状态 检修 的 数据 挖 据 方法 吧 。” 徐 教授 说 。 


“变压器 状态 检修 的 原理 是 什么 呢 ? ” 李 部 长 问 。 


徐 教授 不 紧 不 慢 地 说 : “大 家 都 知道 变压器 的 长 期 发 热 使 得 矿物 绝缘 油 和 固体 
有 机 绝缘 材料 逐渐 老化 、 变 质 ， 在 这 个 过 程 中 伴随 产生 各 种 气体 ， 当 然 这 个 是 一 个 
缓慢 的 过 程 。” 


“也 就 是 一 个 由 量变 到 质变 的 过 程 。” 台 下 有 人 附和 。 


徐 教授 说 : “不 错 ! 当 变 压 器 内 部 发 生 故障 时 ， 由 于 电 、 热 故障 的 结果 使 某 些 
C-C 键 和 C- 理 键 断裂 ,伴随 生成 少量 活泼 的 氧 分 子 和 不 稳定 的 碳 氧 化 合 物 的 自由 基 ， 
这 些 氧 原 子 或 者 自由 基 通 过 复杂 的 化 学 反应 迅速 重新 化 合 ， 形 成 一 些 气体 ， 如 和 氧气 
(HD) 、 甲 烷 (CH ) 、 乙 烷 (C2He) 、 乙 烯 (C2H4)、 乙 块 (CHs) 、 一 氧化 碳 
(CO) 和 二 氧化 碳 (CO,) 等 。 随 着 故障 的 日 益 严重 ， 相 应 的 气体 浓度 不 断 增加 。” 


“ 哦 ， 这 就 是 反映 变压器 状态 由 量变 到 质变 的 过 程 唆 ! ”人 台 下 有 人 蚁 咕 道 。 


徐 教授 接着 说 : “在 故障 初期 ， 所 形成 的 气体 溶解 于 油 中 。 当 故障 能 量 较 大 时 ， 
这 些 气 体 的 产量 会 快速 增加 , 故障 点 温度 较 低 时 , CHs 比例 较 大 ; 温度 升 高 时 ,CzH4、 
王 成 分 急剧 增加 ， 比 例 增 大 。 当 严重 过 热 时 ， 则 会 生成 CH 气体 。 当 发 生 固体 绝 
缘 过 热 性 故障 时 ， 除 产生 上 面 的 低 分 子 烃 类 气体 外 ， 还 会 产生 较 多 的 CO 和 CO，， 
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且 随 着 温度 的 升 高 ，CO/MCO; 的 比值 逐步 增 大 。 因 此 ， 可 以 通过 定期 测量 变压器 油 
中 的 各 种 气体 含量 ， 应 用 相关 的 气体 分 析 技术 ， 判 断 变压器 故障 的 性 质 和 程度 ， 为 
状态 检修 安排 提供 依据 。” 


马 处 长 插话 说 : “在 变压器 状态 检修 技术 开展 的 初期 ， 主 要 是 通过 分 析 油 中 溶 
解 气体 的 含量 及 相互 关系 对 变压器 进行 状态 诊断 的 方法 ， 那 是 比较 流行 的 方法 是 三 
角 图 法 、 三 比值 法 等 。” 


徐 教授 补充 说 : “这 些 方法 大 多 仍 局 限于 阔 值 诊断 的 范畴 ， 一 般 只 给 出 一 个 判 
定 边 界 的 描述 。 这 样 难以 确切 反映 故障 与 表现 特征 之 间 的 客观 规律 ， 并 且 很 难 在 溶 
解 气体 含量 较 小 的 情况 下 对 变压器 状态 进行 分 析 。 也 就 是 说 ， 只 有 当 某 些 特征 气体 
含量 超过 “临界 值 ” 时 ， 判 断 结果 才 被 认为 是 有 意义 的 。 传 统 方法 的 这 些 缺 点 无 疑 
对 变压器 潜伏 性 故障 的 发 现 和 分 析 非 常 不 利 。 而 数据 挖掘 技术 应 用 于 变压器 状态 检 
修 可 显示 出 很 多 优点 。” 


5 和 = 


“ 徐 老师 ， 您 一 定 把 这 部 分 讲解 详细 些 ， 变 压 器 状态 检修 可 是 当前 国家 电网 很 
重视 的 一 个 研究 和 应 用 热点 ! ” 马 处 长 说 。 


徐 教授 : “好 ， 我 在 讲 数据 挖掘 在 电力 行业 的 应 用 时 ， 会 顾及 到 其 他 行业 的 学 
员 ， 从 基础 的 东西 开始 讲解 。 希 望 能 够 抛砖引玉 ， 使 大 家 借鉴 到 自己 的 行业 中 ， 解 
决 本 行业 的 具体 问题 。” 


马 处 长 对 这 节 课 非常 感 兴趣 ， 催 促 道 : “ 徐 老师 ， 咱 们 赶紧 开始 讲 数据 挖掘 技 
术 在 变压器 状态 检修 中 的 应 用 吧 ? ” 


徐 教授 一 语 道破 了 变压器 状态 评估 的 基本 思路 : “我 们 应 用 支持 向 量 机 回归 方 
法 ， 对 反映 变压器 状态 的 各 种 因素 ， 建 立 变压器 状态 回归 模型 ， 从 而 可 以 根据 这 些 
因素 的 变化 来 快速 评估 变压器 运行 状态 。” 


“为 什么 采用 支撑 向 量 机 技术 呢 ? 它 有 什么 优势 呢 ? ” 台 下 有 人 问 。 


徐 教授 回答 道 ， “支撑 向 量 机 英文 为 Support Vector Machines， 简 称 SVM， 是 
数据 挖掘 中 的 一 项 非常 有 效 地 解决 分 类 和 回归 问题 的 方法 ， 最 初 是 20 世纪 90 年 代 
Vapnik 等 人 根据 统计 学 习 理论 中 结构 风险 最 小 化 原则 提出 的 。 该 方法 在 解决 小 样 
本 、 非 线性 及 高 维 模式 识别 问题 中 表现 出 许多 特有 的 优势 ， 所 建立 的 模型 具有 简洁 
的 数学 形式 和 直观 的 几何 解释 。 且 求解 算法 需要 人 为 设 定 的 参数 少 ， 便 于 应 用 ， 得 
到 的 模型 具有 良好 的 泛 化 能 力 ， 为 小 样本 机 器 学 习 提供 了 一 种 新 方法 。” 


马 处 长 : “这 么 吸引 人 的 方法 ， 徐 老师 ， 可 否 给 我 们 具体 讲解 一 下 支撑 向 量 机 
的 建 模 过 程 ?” 

徐 教授 ，“ 我 给 研究 生 上 课时 ， 支 撑 向 量 机 的 建 模 过 程 会 讲解 得 非常 详细 ， 要 
给 你 们 这 样 讲 ， 青 定 大 多 数 人 就 会 眼睛 一 闭 一 睁 一 节 课 就 没 了 。 如 果 确实 有 人 对 此 
感 兴趣 ， 我 们 课 后 可 抽 时 间 讲解 。” 

“好 吧 ， 徐 老师 ， 今 晚 我 们 对 此 感 兴 趣 的 几 个 人 到 您 办 公 室 ， 您 给 我 们 开 个 小 
灶 吧 。” 马 处 长 县 求 道 
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“ 没 问 题 。” 徐 教授 干脆 地 应 道 。 

“ 徐 老师 ， 听 我 们 公司 信息 中 心 的 小 张 说 ,现在 的 数据 挖 据 平 台 如 Clementine、 
Weka， 还 有 国产 的 Merit DM 等 都 集成 了 支撑 向 量 机 方法 ， 只 要 按 要 求 将 数据 代入 
就 可 得 到 预测 模型 。” 


“是 的 ， 大 家 只 要 学 会 了 这 些 软件 的 使 用 ， 就 可 以 应 用 支撑 向 量 机 方法 解决 实 
际 问题 了 。” 徐 教授 答 道 。 

“ 太 好 了 ， 徐 老师 ， 那 您 就 给 大 家 讲 讲 如 何 运 用 支撑 向 量 机 来 建立 变压器 状态 
评估 模型 吧 ! ” 马 处 长 又 一 次 发 出 了 请 求 。 


徐 教授 : “我 们 采用 支撑 向 量 机 回归 技术 ， 将 对 变压器 的 各 个 评价 指标 作为 输 
入 ， 将 实际 评估 结果 作为 输出 ， 通 过 对 训练 集 进行 学 习 ， 在 测试 集 上 对 得 到 的 模型 
进行 测试 ， 最 后 得 到 预测 能 力 强 的 变压器 状态 评估 回归 模型 。” 


se 


/| 氢气 合 量 所 气 产 气 速率 涡 \ 
上 一 -一 一 一 一 一 一 
| | 己 块 含量 乙 燃 产 气 速率 党 ! 
[sj 对 | | 三 
| 「 总 烃 含量 [ 总 烃 产 气 速率 体 V | | 测 能 
| ! 的 
! M |! | 结 状 
1 电 1 
| | 绝缘 电阻 | 吸收 比 | 所 回 上 果 上 JJ 态 
| 天 一 归 | 
| | 泄露 电流 介 损 什 怠 归 | 全 
| - ! 修 
| 绕组 直流 电阻 | 多 
路 
| | 油 中 微 水 | 油 介 损 | 
| ! 
! 1 
i 六 
攻 各 类 指标 的 权 值 - 


Vein 
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看 着 屏幕 的 内 容 ， 马 处 长 说 : “我 看 明白 了 ， 变 压 器 的 评价 指标 都 与 变压器 状 
态 有 关 ， 或 者 说 能 够 直接 或 问 接 反映 变压器 状态 ， 例 如 油 中 各 种 气体 的 含量 、 电 气 
性 能 、 运 行 环境 等 。” 

“ 马 处 长 说 得 比较 笼统 ， 但 基本 都 概括 了 。 具 体 的 评价 指标 大 家 可 以 看 下 一 张 
PPT， 我 把 各 类 指标 细 化 了 ， 有 什么 不 明白 的 可 以 问 马 处 长 。” 徐 教授 说 道 。 


BN 


名 组 直流 电 限 ! ] 


“ 哦 ， 我 想 问 马 处 长 一 个 问题 ， 这 些 评价 指标 的 数据 通过 哪些 途径 获取 ? ” 

马 处 长 如 数 家 珍 地 说 : “这 些 数据 主要 来 自 SCADA 数据 采集 与 监视 控制 系 
统 ) 、EP-MIS (电力 流程 化 管理 信息 系统 ) 、GSRMS (电网 空间 资源 管理 系统 ) 、 
PIMS 生产 实 时 信息 管理 系统 ) ， 还 有 日 常 的 实验 数据 等 。” 

“这 么 说 电力 公司 还 未 建立 数据 仓库 ? ” 李 部 长 问 道 。 

马 部 长 转向 李 部 长 解释 说 : “没有 。 数 据 挖掘 在 我 国 的 电力 行业 只 有 零星 的 应 
用 ， 虽 然 有 些 电 力 公司 建立 了 数据 中 心 ， 但 由 于 对 数据 挖掘 认识 不 够 ， 数 据 中 心 并 
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不 是 真正 意义 上 为 数据 挖 所 服务 的 数据 仓库 。” 

李 部 长 感慨 万 分 : “那么 在 变压器 状态 评估 的 数据 准备 阶段 就 要 花 很 大 的 力气 
了 ， 这 样 会 大 大 影响 数据 挖掘 的 效率 和 质量 。” 

“是 的 。 我 回去 建议 我 们 公司 率先 建立 数据 仓库 ， 李 部 长 ， 你 们 工 钢 铁 公司 也 
尽快 建 吧 ， 我 们 一 起 交流 、 协 作 ， 共 同 进步 吧 。” 马 处 长 道 。 

李 部 长 : “好 吧 ， 我 们 达成 口头 “君子 协定 ”， 回 到 公司 我 们 就 开始 起 草 建立 

数据 仓库 的 建议 书 。” 

马 处 长 不 加 思索 地 回应 道 : “一 言 为 定 ! ” 

S 钢铁 公司 的 赵 总 有 点 不 耐烦 了 : “你 们 俩 下 课 后 好 好 商量 ， 不 要 浪费 课堂 时 
间 了 。 我 这 里 有 数据 仓库 专业 公司 程 总 的 电话 ， 你 们 去 向 他 咨询 吧 。” 

徐 教授 对 他 俩 的 想法 表示 肯定 ， 并 鼓励 道 ， “对 你 们 这 些 实力 雄厚 的 大 公司 ， 
建立 数据 仓库 确实 是 正确 的 选择 , 但 愿 你 们 能 够 成 功 , 为 数据 挖掘 在 我 国 走向 应 用 、 
赶 上 甚至 超过 国际 先进 水 平 探索 道路 。” 

徐 教授 将 PPT 翻 了 一 页 ， 继 续 道 “建立 变压器 状态 评估 的 回归 模型 ， 在 选 定 
了 输入 指标 后 ， 还 要 有 一 定 的 对 评价 结果 进行 度量 的 策略 ， 请 看 变压器 状态 检修 评 
估 结 果 表 : ” 


评分 0 一 20 20 一 40 40 一 60 60 一 85 85 一 100 
状态 严重 异常 注意 良好 优秀 

维修 策略 。 立即 维修 尽快 维修 优先 安排 计划 延期 

描述 单项 重要 状态 严 单项 重要 状 单项 或 者 多 各 状态 处 于 规 各 变量 处 于 


重 超 过 标准 限 态 变 化 较 大 ， 项 状态 变化 ” 程 的 警示 外 ， ”稳定 , 性 能 接 
值 , 应 立即 维修 ; ”应 监视 运行 ， ”阶级 标准 , 仍 ” 比 出 厂 状态 有 ” 近 出 产值 ; 
可 以 运行 ; 一 定 差距 ; 


徐 教授 接着 讲 : “设备 变压器 的 健康 状态 评分 ， 分 值 为 0~100 分 ，0 分 表示 设备 
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需要 马上 检修 ; 100 分 则 表示 变压器 的 各 项 指标 都 很 正常 ， 而 且 没 有 经 历 不 良 工 况 ， 
又 没有 家 族 质 量 缺陷 史 ， 即 设备 完全 处 于 正常 状态 ， 无 需 维护 。 有 了 这 样 的 一 个 较为 
详细 的 评价 体系 ， 我 们 就 可 以 开始 数据 挖 据 下 一 阶段 的 工作 了 。” 


“下 一 步 就 是 收集 数据 ， 并 进行 数据 预 处 理 了 吧 ? ” 马 处 长 间 。 


徐 教授 回答 道 : “不 错 ! 马 处 长 已 经 对 数据 挖掘 流程 非常 熟悉 了 ! 数据 准备 阶 
段 要 对 数据 质量 进行 评价 ， 然 后 对 噪音 数据 、 缺 失 数据 等 进行 处 理 ， 为 数据 建 模 打 
好 基础 。” 


“ 徐 老师 ， 上 面 您 讲 过 ， 我 们 要 建立 变压器 评估 模型 的 输出 为 对 变压器 综合 状 
态 的 百分制 评分 ， 我 想 是 不 是 对 对 变压器 的 各 个 状态 指标 也 要 以 百分制 评分 ? ” 马 
处 长 道 出 了 自己 的 思路 。 

徐 教授 肯定 地 说 : “ 马 处 长 不 愧 为 设备 管理 出 身 ， 一 语 道破 了 研究 者 多 年 探索 
才 得 出 的 方法 。 我 们 采用 半 岭 模型 来 对 变压器 的 各 个 状态 指标 进行 单个 评估 。 请 大 
家 看 屏幕 ， 其 中 ，a 和 b 是 变量 的 阔 值 ，x 是 评分 参数 的 实际 测量 值 ，f (x) 为 评分 
的 结果 值 。 对 于 数值 越 大 越 好 的 指标 ， 采 用 升 半 岭 模型 ， 反 之 采用 降 半 岭 模型 。” 


1(x) 


100 
100 ,0<x<a 
EE 
f(x) = < 50-50sin(n/(b-a)*(x-(a+b)/2)) ,a<xsb 
0 b<x 
0 a e+bM2 b iL 


徐 教授 指 着 投影 屏幕 继 续 说 : “ 降 半 岭 的 评分 公式 如 下 ， 它 为 取 值 在 0 一 100 
之 间 的 单调 下 降 函 数 。” 


“同样 升 半 岭 的 评分 公式 如 下 ， 它 为 取 值 在 0 一 100 之 间 的 单调 上 升 的 函数 。” 
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徐 教授 接着 说 。 

f(x), 

100 
0 ,0<x<50 

EE 

f(x) = < 50+50sin(n/(b-a)*(x-(atb}/2)) ,50<x<150 
1000 ,150<x 
0 a (arbM2 b x 


“ 徐 老师 ， 评 分 公式 很 简单 ， 相 信 大 家 都 可 以 看 明白 。 具 体 在 变压器 各 个 状态 
指标 评估 中 如 何 应 用 呢 ? ” 马 处 长 希望 知道 的 更 详细 。 


徐 教授 说 : “好 ， 那 我 就 举 些 具体 的 例子 吧 。 首 先 我 们 看 看 对 变压器 特征 气体 
指标 的 评分 。 在 变压器 状态 检修 中 围绕 如 何 确定 特征 气体 的 含量 与 变压器 内 部 故障 
的 定量 关系 ， 国 内 外 的 DGA 技术 工作 者 都 做 了 大 量 的 研究 。 在 统计 结果 的 基础 上 ， 
DLAT772-2000《 变 压 器 油 中 溶解 气体 分 析 和 判断 导 则 》、《 油 浸 式 变压器 〈 电 抗 器 ) 
状态 评价 导 则 》 和 其 他 参考 资料 给 出 了 变压器 油 中 气体 含量 的 推荐 阔 值 ， 并 依据 指 
标的 优 劣 采用 不 同 的 半 岭 模型 评分 规则 。 大 家 请 看 屏幕 ， 显 示 的 是 变压器 状态 气体 
评分 模型 与 阅 值 表 。 我 们 可 以 根据 该 表 完 成 对 特征 气体 指标 的 评分 。 


特征 气体 A 出 厂 值 (ul/L) B 注意 值 (ul/L) 评分 模型 

H2 50 150 降 半 岭 模型 
C2H2 0 5 降 半 岭 模型 
总 烃 20 150 降 半 岭 模型 


“同时 我 们 制定 出 变压器 绝对 产 气 速率 注意 值 与 阔 值 表 ， 就 如 屏幕 显示 。” 徐 
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特征 气体 A 出 矿 值 CulML) B 注意 值 (ul/L) 评分 模型 

Ha2 5 10 降 半 岭 模型 
CzH2 0.08 0.2 降 半 岭 模型 
总 烃 8 入 降 半 岭 模型 


“具体 对 每 个 指标 的 评分 方法 是 怎么 样 的 ? ” 马 处 长 问 。 


“好 ， 以 瑟 为 例 ， 来 说 明 一 下 于 含量 评分 函数 和 产 气 速率 评分 函数 。” 徐 教 
授 说 。 


100 ,O<x<50 
f(x) = 50-5oOsin(ry100(x-100)) ,50<x<150 
O ,150<x 
100 ,O<x<5 
f(x) = 5o-5osin(rys(rc-7.5)) ,5<x<10 
O ,10<x 


“首先 我 们 分 析 指标 特征 后 ， 觉 得 采用 升 半 岭 评 分 模型 还 是 降 半 岭 评分 模型 ， 
然后 把 阔 值 〈 也 就 是 我 们 所 说 的 注意 值 ) 带 入 模型 就 可 以 了 。” 徐 教授 说 。 


“那么 对 于 变压器 绝缘 性 能 指标 是 不 是 也 可 以 这 么 做 ?” 马 处 长 又 抛 出 个 问题 。 


徐 教授 回答 : “是 的 ， 以 绝缘 电阻 为 例 ， 绝 缘 电 阻 指 的 是 在 绝缘 结构 的 两 个 电 
极 之 间 施 加 直流 电压 与 流 经 该 对 电极 的 泄漏 电流 值 之 比 。 变 压 器 的 绝缘 电阻 越 高 表 
示 绝 缘 性 能 越 好 ,根据 《规程 》，220KV 及 以 下 的 变压器 其 绝缘 电阻 在 20'C 时 不 小 
于 800MQ， 若 大 于 1600MQ 表示 绝缘 电阻 状态 良好 ， 所 以 评分 模型 采用 升 半 岭 模 
型 ， 其 评分 函数 如 屏幕 显示 。?” 
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0 ,0<x<800 
f(x) = 50+50sin(n/800*(x-1200)) ,800<x<1600 
1000 ,1600<x 


“那么 对 于 检修 记录 如 何 量化 呢 ? ” 马 处 长 又 问 。 
“ 马 处 长 你 真是 成 了 问题 竹子 唆 。” 台 下 有 人 调 悠 马 处 长 。 


徐 教授 说 : “问题 多 说 明善 于 思考 ! 马 处 长 的 这 个 问题 很 重要 。 对 于 检修 记录 
的 量化 , 变压器 的 检修 历史 、 运行 环 境 、 外 观 检查 以 及 部 分 运行 指标 属于 定性 指标 ， 
度量 困难 ， 需 依靠 专家 经 验 进行 定性 描述 ， 故 需要 专家 打分 ， 范 围 是 [0.100]， 若 指 
标 反映 变压器 状态 越 好 ， 分 值 越 接近 100。” 
评分 0 一 20 20 一 40 40 一 60 60 一 85 85 一 100 


检修 记录 难度 大 ， 次 数 ”难度 偏 大 ， 次 ”难度 一 般 ,， 次 ”难度 一 般 ， 次 ”难度 偏 小 ， 次 
多 ， 有 明显 缺 ” 数 偏 多 ， 有 一 ” 数 一 般 ， 有 一 数 较 少 ， 留 轻 ” 数 偏 少 ， 未 留 


陷 般 缺 陷 般 缺 陷 微 缺陷 缺陷 
家 族 史 难度 大 ， 次 数 ”难度 偏 大 ， 次 ”难度 一 般 ,， 次 ”难度 一 般 ， 次 ”难度 偏 小 ， 次 
频繁 数 偏 多 数 一 般 数 较 少 数 偏 少 


徐 教授 接着 说 : “例如 ， 对 运行 中 变压器 遭受 的 过 电压 的 量化 要 根据 遭受 过 电 
压 的 大 小 和 次 数 来 获得 指标 评估 量化 值 ， 遭 受过 电压 最 大 电压 越 高 ， 次 数 越 多 ， 则 
值 越 小 。” 


“那么 对 于 外 界 环 境 因素 如 何 量化 呢 ? ” 马 处 长 问 。 


“变压器 的 运行 环境 一 般 包 括 : 周围 空气 的 温度 、 湿 度 、 污 移 等 级 别 ， 考 虑 的 
环境 因素 记录 等 问题 采用 温度 和 湿度 进行 量化 。” 徐 教授 解释 道 。 
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环境 指标 0 一 20 20 一 40 40 一 60 60 一 85 85 一 100 
温度 年 平均 温 年 平均 温 年 平均 温度 接 年 平均 温度 接 年 平均 温度 地 


(摄氏 度 ) 度 >20 度 , 极度 >20 度 , 极 近 20 度 ,极限 近 20 度 ,极限 域 20 度 ,极限 
限 温 度 经 限 温 度 有 温度 有 时 >40 温度 偶尔 >40 温度 没有 >40 
常 >40 度 或 时 >40 度 或 ” 度 或 <-25 度 度 或 <-25 度 度 或 <-25 度 
<-25 度 <-25 度 

湿度 >90% 80-90% 60-80% 40-60% <40% 


“那么 对 于 变压器 外 观 的 量化 呢 ? ” 马 处 长 又 问 道 。 


徐 教授 说 : “我 们 对 于 变压器 外 观 指标 的 量化 主要 是 通过 漏 油 的 严重 程度 来 划 
分 的 。 如 屏幕 所 示 的 标准 来 进行 外 观 的 量化 。” 


外 观 指标 0 一 20 20 一 40 40 一 60 60 一 85 85 一 100 

渗 漏 油 漏 油 多 处 明显 渗 漏 ”一 处 明显 渗 漏 ”多 处 轻微 渗 漏 ”一 处 轻微 渗 漏 
油 油 油 油 

异常 噪音 声音 增 大 并 有 ， 比 ”声音 均匀 ， 比 ”声音 平稳 ， 均 


明显 杂音 正常 时 稍 大 匀 


李 部 长 通过 数据 挖掘 成 功 地 解决 过 硅钢 质量 控制 问题 ， 他 知道 下 一 步 该 干什么 
了 ， 便 说 : “输入 输出 数据 都 有 了 具体 的 量化 方法 ， 便 可 以 收集 数据 ， 训 练 出 变 压 
器 的 评估 模型 。” 

“是 的 。 某 省 电力 公司 三 年 一 次 的 安全 性 评价 开始 了 ， 他 们 从 各 地 区 供电 公司 
遵 选 了 15 位 专家 ， 巡 回 对 全 省 19 个 地 市 的 216 台 型 号 为 SFPSZ8-120000/220 的 变 
压 器 进行 了 安全 性 评估 ， 收 集 到 了 详尽 的 评估 数据 。” 徐 教授 说 。 

李 部 长 曾经 领导 过 几 个 数据 挖掘 项 目 ， 对 SVR 回归 方法 步骤 比较 熟悉 ， 他 说 : 
“我 想 ， 对 数据 集 进行 标准 化 处 理 后 ， 在 应 用 10 倍 交 叉 验 证 法 对 SVR 模型 进行 训 
练 ， 就 可 得 出 变压器 状态 评估 模型 。” 

徐 教授 : “ 李 部 长 说 得 很 对 ， 就 是 这 样 的 步骤 。 训 练 模型 的 过 程 ， 也 就 是 支撑 
向 量 回归 机 对 专家 评估 经 验 学 习 的 过 程 。” 

马 处 长 齿 然 开朗 : “ 徐 老师 ， 您 看 我 的 理解 对 不 对 。 支 撑 向 量 回 归 方 法 假定 了 
一 个 学 习 机 器 〈 即 带 有 一 些 参数 的 函数 表达 式 ) ， 机 器 学 习 就 是 利用 数据 集 反 复 训 
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练 找 到 学 习 机 器 中 最 优 的 参数 ， 从 而 使 学 习 机 器 变 成 一 个 具体 的 回归 函数 表达 式 ， 
这 个 回归 函数 对 未 来 数据 具有 较 好 的 预测 能 力 。 有 具体 的 说 , 对 变压器 评估 的 数据 集 ， 
应 用 支撑 向 量 回归 方法 训练 得 到 了 一 个 囊括 众多 评估 专家 经 验 的 回归 函数 ， 以 后 对 
型 号 为 SFPSZ8-120000/220 的 变压器 ， 将 收集 到 的 变压器 状态 数据 代入 这 个 回归 函 
数 ， 就 可 以 知道 这 台 变 压 器 可 以 得 多 少 分 ， 据 此 确定 对 其 状态 检修 的 措施 。” 


听 着 马 处 长 的 表述 , 徐 教授 不 断 点 头 。 他 刚 一 说 完 ，, 徐 教授 便 给 予 肯定 地 回答 : 
“ 马 处 长 理解 地 完全 正确 ! ” 

“ 徐 老师 ， 通 过 支撑 向 量 回 归 方 法 ， 得 到 了 变压器 评估 模型 以 后 ， 以 后 在 实际 
工作 中 怎么 应 用 呢 ? ” 马 处 长 脑子 里 又 闪现 出 了 一 个 问题 。 


徐 教授 不 加 思索 ， 脱 口 而 出 : “是 这 样 ，Merit DM 数据 挖 气 平 台中 ， 可 以 将 学 
习 得 到 的 模型 固化 ， 各 地 市 供电 公司 安 监 科 或 变电站 直接 使 用 包含 着 众多 专家 智慧 
的 回归 模型 对 变压器 进行 评估 。 这 样 ， 就 好 像 专家 们 成 了 随时 都 可 以 请 到 的 顾问 。” 

听 到 这 里 ， 马 处 长 好 像 取得 了 真 经 ， 高 兴 得 站 了 起 来 : “不 错 ， 这 样 ， 使 得 状态 
检修 工作 可 以 常态 化 ， 真 正 做 到 防 患 于 未 然 。” 

“ 马 处 长 ， 你 只 顾 高 兴 ， 其 他 学 员 对 支撑 向 量 机 应 用 于 状态 检修 不 一 定理 解 的 与 
你 一 样 透 彻 。 不 过 ， 我 们 以 变压器 状态 检修 为 例 ， 起 到 一 个 抛砖引玉 的 作用 。 其 实数 
据 挖掘 技术 在 很 多 行业 的 关键 设备 上 的 应 用 都 能 够 如 法 泡 制 。” 徐 教授 总 结 道 。 

一 时 ， 教 室 里 激烈 讨论 开 了 ,大 家 纷纷 谈论 自己 行业 哪些 方面 可 以 应 用 数据 挖掘 
技术 进行 状态 检修 。 

这 时 下 课 铃 响 了 ， 徐 教授 边 收拾 笔记 本 电脑 边 说 : “好 ， 大 家 好 好 聊 吧 ， 相 信 数 
据 挖掘 在 你 们 的 工作 中 会 有 用 武之 地 的 。” 
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3.3 ”电力 系统 暂 态 稳定 性 评估 


徐 教授 打开 幻灯 片 ， 说 : “上 节 课 我 们 介绍 了 电力 设备 状态 检修 ,今天 我 们 来 讲 
下 电力 系统 暂 态 稳定 性 评估 。” 


“电力 系统 暂 态 稳定 性 ? ”大 部 分 学 员 根本 没 听 过 这 个 名 词 ， 有 人 疑惑 不 解 地 问 
道 。 

“这 个 问题 , 就 由 电力 公司 的 马 处 长 给 大 家 介绍 一 下 吧 , 他 是 专家 ! ” 徐 教授 说 ， 
然后 端 着 杯子 坐 到 了 教师 第 一 排 座位 上 。 


“ 马 专家 ， 该 你 上 台 了 ! ” 举 在 马 处 长 旁边 的 李 部 长 , 拍 了 拍 马 处 长 ,鼓励 他 说 。 


马 处 长 清 了 清 嗓 子 说 : “电力 系统 在 大 扰动 后 ， 如 发 生 各 种 短路 故障 、 切 除 大 容 
量 发 电机 、 输 电 设备 或 某 些 负 荷 的 突然 变化 等 情况 , 如 果 电力 系统 能 够 保持 同步 运行 ， 
并 具有 可 以 接受 的 电压 和 频率 水 平 ， 则 称 此 电力 系统 在 这 一 大 扰动 下 是 暂 态 稳定 的 。 
在 电力 系统 规划 、 设 计 、 运 行 和 控制 时 都 要 进行 大 量 的 暂 态 稳定 分 析 。 通 过 和 暂 态 稳 定 
分 析 还 可 以 研究 各 种 稳定 措施 的 效果 以 及 稳定 控制 的 性 能 , 因此 对 电网 的 安全 运行 有 
着 非常 重要 的 意义 。” 


“那么 ， 进 行 电力 系统 暂 态 稳定 性 评估 目的 为 了 什么 呢 ? ” 李 部 长 问 道 。 


马 处 长 说 : “电力 系统 是 一 个 复杂 的 动力 系统 ， 其 复杂 性 表现 在 一 方面 必须 保证 
必要 的 电能 质量 及 数量 ; 另 一 方面 系统 又 处 于 不 断 的 扰动 之 中 , 并 且 扰动 发 生 的 时 间 、 
地 点 、 类 型 及 其 严重 性 都 是 随机 的 。 在 扰动 发 生 后 的 系统 动态 过 程 中 ， 一 旦 发 生 稳 定 
性 破坏 ， 系 统 可 能 产生 严重 的 后 果 ， 造 成 极 大 的 经 济 损失 及 重大 的 社会 影响 。 对 和 暂 态 
稳定 性 进行 评估 ， 可 以 采取 相应 措施 ， 避 免 电力 系统 故障 ， 减 少 经 济 损失 。” 


“原来 是 这 样 ， 那 扰动 和 你 经 过 树林 ， 鸟 群 的 “躁动 ”一 样 吗 ? ”幽默 的 李 部 长 
把 大 家 全 逗乐 了 。 
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马 处 长 ， 笑 着 说 : “哈哈 ， 肯 定 不 一 样 唆 ! 人 给 鸟 一 个 扰动 ， 鸟 飞 了 ,可 以 飞 远 ， 
不 再 回 到 刚才 的 嫩 戏 玩 阅 的 状态 。 而 电力 系统 受到 干扰 后 ， 必 须 立 即 采取 有 效 措施 ， 
尽快 达到 新 的 稳定 状态 。” 

“ 那 扰动 后 的 电力 系统 会 出 现 哪些 情况 ? ” 台 下 有 人 问 。 

马 处 长 回应 说 : “扰动 后 的 暂 态 过 程 可 能 有 两 种 不 同 的 结果 ， 一 种 是 发 电机 转子 
闻 相 对 角度 随时 间 的 变化 呈 播 押 状 态 且 振 菏 幅 值 逐渐 衰减 , 各 机 组 之 间 的 相对 转速 最 
终 误 减 为 零 ， 使 系统 回 到 稳定 前 的 稳 态 运行 点 ， 或 者 过 滤 到 一 个 新 的 稳 态 运行 点 。 在 
此 运行 状况 下 ， 所 有 发 电机 仍然 保持 同步 运行 ， 这 样 的 电力 系统 是 暂 态 稳定 的 。” 

“ 那 另 一 种 情况 呢 ? ” 李 部 长 说 。 

“ 另 一 种 结果 是 暂 态 过 程 中 某 些 发 电机 转子 之 间 的 相对 角度 随时 间 不 断 增 大 , 它 
们 之 间 始 终 存在 着 相对 转速 ， 使 这 些 发 电机 之 间 失 去 同步 。 发 电机 间 失 去 同步 后 将 
在 系统 中 产生 功率 和 电压 的 强烈 振荡 ,会 使 一 些 发 电机 和 负荷 被 迫切 除 ,在 严重 的 情 
况 下 ， 甚 至 导致 系统 的 解 列 和 瓦解 。 这 种 情况 电力 系统 是 咎 态 不 稳定 的 ， 或 称 电力 系 
统 失去 暂 态 稳定 。” 马 处 长 接着 说 。 

“ 马 处 长 还 是 有 两 把 剧 子 的 ! ” 台 下 有 人 说 。 

马 处 长 接着 说 : “根据 在 扰动 后 的 不 同时 间 里 系统 各 部 分 的 反应 不 同 ， 在 分 析 暂 
态 稳 定时 往往 分 为 三 个 阶段 ， 分 别 是 起 始 阶段 、 中 间 阶 段 和 后 期 阶段 。” 

“这 三 个 阶段 有 什么 具体 含义 呢 ? ” 李 部 长 问 。 


马 处 长 解释 说 : “起 始 阶段 即 故 障 后 约 一 秒 钟 内 的 时 间 段 。 在 这 期 间 系统 中 的 保 
护 和 自动 装置 有 一 系列 的 动作 ， 例 如 切除 故障 线路 和 重合 阅 ， 切 除 发 电机 等 。 在 这 个 
时 间 段 中 发 电机 的 调节 系统 还 来 不 及 起 到 明显 的 作用 。” 


“ 那 中 间 阶 段 呢 ? ” 坐 在 前 排 的 刘 经 理 问 道 。 


马 处 长 回答 说 : “中 间 阶 段 是 在 起 始 阶段 后 ， 大 约 持续 5 秒 钟 的 时 间 段 。 在 此 期 
间 发 电机 的 调节 系统 将 发 挥 作用 。” 
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“ 哦 ， 中 间 阶 段 比 起 始 阶 段 时 间 稍 长 了 点 ! ”细心 的 李 部 长 咬 咕 到 。 


“后 期 阶段 是 指 在 故障 后 几 分 钟 内 这 段 时 间 。 这 时 热力 设备 (如 锅炉 等 ) 将 影响 
到 电力 系统 的 暂 态 过 程 ， 另 外 ， 系 统 中 还 将 发 生 由 于 频率 的 下 降 自动 切除 部 分 负荷 等 
操作 。” 马 处 长 说 。 


“后 期 阶段 就 是 根据 扰动 状况 采取 措施 了 。” 李 部 长 说 。 


“不 错 ! 基本 的 业务 知识 我 就 介绍 到 这 了 ， 剩 下 的 具体 用 数据 挖掘 技术 来 做 电力 
系统 暂 态 稳定 性 评估 还 要 请 徐 教授 来 给 大 家 讲 吧 ! ” 马 处 长 说 着 走 下 讲台 。 


徐 教授 回 到 讲台 上 说 : “ 马 处 长 讲 得 很 详细 、 很 具体 ! 下 面 咱们 来 学 习 下 基于 数 
据 挖掘 技术 的 电力 系统 暂 态 稳定 性 评估 。” 


马 处 长 赶紧 拿 出 笔记 本 开始 记录 。 


徐 教授 : “在 电力 系统 运行 方式 变化 时 ， 经 验 丰富 的 现场 运行 人 员 常 可 粗略 地 预 
测 出 某 些 状态 量 ， 如 母线 电压 、 线 路 潮流 等 。 这 是 因为 运行 人 员 通 过 长 时 间 的 运行 ， 
掌握 了 代表 电力 系统 安全 运行 水 平 的 关键 部 位 的 状态 量 和 其 他 一 些 量 的 关联 关系 , 他 
们 可 根据 电力 系统 中 控制 量 和 扰动 量 的 变化 趋势 , 预测 出 这 些 关键 部 位 在 运行 方式 变 
化 时 的 状态 量 , 这 在 很 大 程度 上 是 一 种 经 验 的 积累 。 若 要 将 这 种 积累 以 数学 的 形式 表 
示 出 来 ， 数 据 挖掘 确实 是 最 好 的 一 种 选择 。” 

听 着 听 着 ， 马 处 长 的 眼珠 直 打 转 ， 一 个 新 的 问题 蹦 了 出 来 : “利用 数据 挖掘 处 理 
和 暂 态 稳定 问题 ， 有 什么 过 人 之 处 ? ” 

徐 教授 : “数据 挖掘 以 其 自身 的 黑箱 子 特性 ， 适 合用 于 处 理 电 力 系统 暂 态 稳定 评 
估 这 样 复杂 的 非 线性 问题 。 它 的 优势 在 于 不 受 电力 系统 复杂 的 数学 模型 的 限制 ， 可 以 
形成 直观 的 规则 以 指导 人 们 在 电力 系统 暂 态 稳定 评估 中 进行 决策 控制 , 为 防治 重大 事 
故 的 发 生 提 供 更 好 的 理论 依据 。” 
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马 处 长 步 步 紧 台 : “ 徐 老师 ,我 们 具体 应 用 什么 数据 挖 据 方 法 进行 暂 态 稳定 评估 
昵 ? ” 


徐 教授 : “ 提 到 数据 挖掘 的 使 用 技术 ， 就 不 能 不 提 到 关联 规则 。 关 联 规则 的 发 展 
是 数据 挖掘 中 最 成 功 和 最 重要 的 方法 之 一 , 也 是 当今 数据 挖掘 中 一 个 非常 活跃 的 研究 
领域 。 由 于 关联 规则 挖掘 可 以 发 现 用 传统 方法 无 法 发 现 的 项 与 项 或 属性 与 属性 间 的 关 
系 规律 ， 因 此 具有 重要 的 研究 与 应 用 价值 。 电 力 系 统 暂 态 稳定 评估 中 的 关联 规则 主要 
体现 在 从 海量 数据 中 发 现 属性 与 属性 间 的 频繁 模式 、 相 关 性 或 因果 关系 ， 以 便 从 宏观 
上 把 握 电 力 系 统 所 有 组 成 元 素 间 的 关联 特性 。 例如， 在 考虑 所 有 可 运行 方式 下 ， 数 据 
属性 参数 的 变化 与 系统 安全 稳定 程度 之 间 的 关联 规则 。” 


这 时 ， 李 部 长 也 展开 了 联想 ， 并 表述 自己 的 想法 : “ 徐 老师 ， 我 想 ， 进 行 暂 态 稳 
定 评估 ， 首 先 需 要 确定 问题 的 变量 集 ， 并 且 还 要 考虑 到 在 线 评估 对 计算 速度 的 要 求 ， 
所 以 选择 的 变量 不 宜 过 多 。” 

徐 教授 又 开始 调动 马 处 长 的 头脑 中 的 电力 知识 系统 : “ 马 处 长 ， 你 从 事 电 力 暂 态 
稳定 性 研究 多 年 , 还 是 给 大 家 介绍 一 下 哪些 数据 或 者 统计 值 可 以 作为 暂 态 稳定 性 评估 
的 特征 变量 ? ” 

马 处 长 挠 了 挠 头 ， 然 后 果断 地 回答 : “好 吧 ， 我 简单 说 一 下 。 不 过 我 得 从 网 上 下 
载 一 下 以 前 的 一 个 PPT。” 


马 处 长 用 徐 教授 的 笔记 本 登录 自己 的 FTP 服务 器 ， 打 开 了 PPT， 翻 出 如 下 页 面 : 
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数据 挖 所 


a、 系 统 总 发 电 出 力 ; 

b、 根 据 电 网 络 中 的 联络 线 将 系统 划分 为 若干 区 域 后 ， 
每 个 区 域 的 总 发 电 出 力 ; 

5c、 系 统 总 负荷 ; 

d、 各 区 域 总 负荷 ; 

e、 系 统 电压 的 最 大 、 最 小 值 ; 

下 联络 线 (或 断面 ) 上 的 传输 功率 ， 

g、 有 功 传输 功率 最 大 的 线路 (或 断面 ) 标 号 ; 


i、 系 统 有 功 、 无 功 网 损 ; 
j、 故 障 发 生 位 置 (定义 为 故障 线路 + 出 


数据 挖掘 技术 及 其 应 用 


马 处 长 指 着 PPT 屏幕 说 : “这 些 变量 和 统计 值 ， 就 是 基本 的 暂 态 稳定 性 评估 的 特 
征 变量 ， 这 里 的 出 力 和 负荷 均 包 括 有 功 、 无 功 两 个 部 分 。” 


徐 教授 将 光 笔 指向 PPT 屏幕 ， 补 充 道 : “其 实 还 有 其 他 一 些 变量 ， 我 们 这 里 不 再 
细 究 。” 


突然 ， 李 部 长 惊 叫 起 来 : “ 徐 老师 ， 我 记得 关联 规则 只 能 处 理 离散 数据 ， 而 我 们 
这 里 选取 的 变量 大 都 是 连续 型 的 。” 


徐 教授 将 目光 移 向 李 部 长 : “你 说 得 很 对 ， 对 暂 态 稳定 性 评估 数据 进行 关联 规则 
挖掘 的 主要 难点 之 一 就 是 将 连续 属性 数值 离散 化 。” 


马 处 长 又 追问 具体 细节 : “ 那 到 底 怎 样 对 连续 数据 离散 化 的 ? ” 
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徐 教授 : “具体 地 说 ， 比 如 采取 聚 类 算法 找 出 候选 离散 断 点 ， 再 结合 信息 焙 理 论 
确定 最 终 离 散 断 点 ， 将 连续 数据 离散 化 到 各 个 离散 区 间 中 ,然后 把 离散 化 区 间 映 射 为 
连续 的 数字 标识 。” 


徐 教授 看 到 好 多 学 员 疑 惑 不 解 地 样子 ， 继 续 说 : “你 们 只 要 知道 ， 连 续 型 数据 可 
以 通过 各 种 方法 离散 化 ， 使 其 适应 处 理 离散 型 数据 的 算法 就 行 了 ， 数 据 挖掘 平台 软件 
一 般 集成 有 这 些 数据 预 处 理 方法 。” 


李 部 长 又 发 现 了 一 个 问题 ， 这 回 他 显得 非常 平静 : “ 徐 老 师 ， 您 给 我 们 讲 过 ， 关 
联 规则 挖掘 通常 都 是 针对 单 维 数据 库 ， 其 经 典 的 Apriori 算法 是 一 种 在 单 维 数据 库 中 
找 频繁 项 集 的 单 维 关联 规则 算法 ,而 我 们 遇 到 的 暂 态 稳定 数据 集 是 多 维 的 ， 这 又 如 何 
处 理 ? ” 


徐 教授 未 曾 预料 到 有 学 员 会 提出 如 此 深刻 的 问题 ,“ 我 们 通过 对 Apriori 算法 ( 包 
括 它 的 一 些 变形 算法 ) 进 行 了 深入 研究 , 然后 将 其 改进 使 之 适用 于 多 维 关联 规则 挖掘 。 
这 样 便 可 找 出 暂 态 稳定 特征 属性 之 间 以 及 特征 属性 与 暂 态 稳定 属性 类 别 之 间 的 关联 
关系 。 最 后 对 挖掘 出 的 规则 进行 分 析 研 究 ， 从 而 对 电力 系统 暂 态 稳定 评估 及 预测 提供 
决策 规则 。” 


马 处 长 : “ 徐 老师 ， 您 具体 给 我 们 展示 一 些 改进 的 Apriori 算法 发 现 的 一 些 关 联 
规则 吧 ， 以 便 我 们 对 挖掘 出 来 的 规则 有 直观 的 理解 。” 


徐 教授 将 PPT 翻 了 几 页 ， 说 道 : “屏幕 上 的 规则 是 我 们 对 某 电力 系统 运用 改进 的 
关联 规则 方法 进行 暂 态 稳定 评估 所 得 出 的 几 个 典型 的 规则 。” 
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规则 1 (支持 度 为 42. 593%， 置 信 度 为 100.000%): 
当 联络 线路 2 上 从 发 电机 节点 GEN2-230 到 负荷 节点 STNA- 
230 的 线路 有 功 传 葵 功率 小 于 0.932 495 时 ， 系 统 稳定 ; 


规则 2 (支持 度 为 62. 963%， 置 信和 度 为 99.020%): 
当 切 除 故障 线路 后 得 到 的 IZ>-0.017 55 时 ， 系 统 易 稳 定 ; 


规则 3 (支持 度 为 4. 321%， 置 信 度 为 85.714%) : 
当 故 障 发 生 在 联络 线路 2 靠近 发 电机 侧 ， 且 
二 电机 节点 GEN2-230 到 负荷 节点 5T 0 
率 大 于 0.932 495 时 ， 系 统 易 失 稳 。 


徐 教授 接着 解释 说 : “从 挖掘 的 结果 可 以 看 出 ， 当 联络 线路 靠近 发 电机 侧 发 
生 故 障 时 ， 系 统 失 稳 概 率 较 高 ， 当 在 非 联络 线路 且 远 离 发 电机 侧 发 生 故 障 时 ， 系 
统 不 易 失 稳 。” 


马 处 长 看 着 这 样 的 结果 ， 觉 得 所 挖掘 出 来 的 规则 还 有 一 定 道理 ， 于 是 说 : “这 说 
明 电 力 系统 的 暂 态 稳定 问题 实际 上 就 是 电网 结构 问题 。 若 电网 结构 坚强 有 序 ， 一 般 不 
会 出 现 稳定 事故 ; 反之 ， 事 故 难以 避免 。 发 生 故 障 后 ， 若 线路 切除 使 薄弱 线路 上 的 潮 
流 降 低 很 大 , 或 不 会 使 薄弱 发 电机 与 功率 输送 枢纽 点 间 的 电气 距离 因 薄 弱 发 电机 与 其 
余 发 电机 间 的 电气 距离 增 大 而 显著 增 大 , 则 切除 故障 线路 引起 的 网 络 结构 改变 会 提高 
电力 系统 的 暂 态 稳定 性 。” 


下 课 铃 响 了 ， 徐 教授 在 屏幕 上 依次 打出 了 自己 的 E-mail 地 址 和 电话 : “大 家 谁 有 
疑问 可 以 通过 邮件 和 电话 跟 我 联系 。” 
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3.4 负荷 预测 


今天 的 课 在 下 午 一 、 二 节 ， 人 徐 教授 走 进 教 室 发 现 有 的 学 员 还 爬 在 桌子 上 ， 便 说 : 
“孔子 日 : “中 午 不 睡 ， 下 午 朋 演 ”。 盏 子 日 : “孔子 说 的 对 ”。 看 看 大 家 的 精 气 神 
儿 ， 我 就 知道 诸位 都 是 中 午睡 了 觉 的 。” 

“ 徐 老师 真是 太 幽 默 了 ! ”有 学 员 喊 道 。 

“这 节 课 ， 看 看 数据 挖掘 的 另外 一 个 用 武之 地 : 电力 负荷 预测 。” 徐 老师 说 出 了 
本 节 课 的 主题 。 

“ 徐 教授 ， 我 是 搞 客 户 关 系 管理 的 ， 电 力行 业 真是 门外汉 。 问 个 可 能 让 大 家 见笑 
的 问题 ， 怎么 理解 电力 负荷 预测 呀 ? ”华润 万 家 的 万 总 谦虚 地 问 道 。 


“ 问 得 好 ， 这 也 正 是 我 接 下 来 要 说 的 。 电 力 负荷 预测 分 长 期 、 短 期 预测 。 实 际 上 
长 期 预测 难度 很 高 ， 它 主要 应 用 在 电力 规划 、 变 电站 的 选 址 等 ， 比 较 常见 的 是 电力 系 
统 短期 负荷 预测 。 电 力 系 统 短期 预测 ， 顾 名 思 义 ， 是 指 预 测 未 来 一 个 月 、 一 周 或 一 天 
的 电力 负荷 指标 的 预测 。” 徐 老师 简单 地 描述 了 一 下 。 

“ 徐 老师 ， 那 为 什么 要 进行 电力 负荷 预测 呢 ? ”南航 的 陆 经 理 也 踊跃 地 道 出 了 自 
己 心中 的 疑惑 。 

徐 教授 笑 着 说 道 : “这 个 问题 我 看 马 处 长 比 我 有 发 言 权 ， 我 们 请 电力 公司 的 马 处 
长 给 大 家 说 说 ”。 

马 处 长 站 起 来 说 道 : “是 这 样 的 ， 电 力 负荷 预测 主要 是 为 了 电网 供电 容量 的 预 安 
排 。 首 先 可 以 了 解 负荷 时 段 与 负荷 量 ， 从 而 安排 电网 内 发 电机 检修 及 维护 的 顺序 ; 其 
次 ， 根 据 负 荷 预测 安排 电网 建设 计划 ， 逐 年 投入 新 的 机 组 ， 以 满足 根据 预测 出 现 的 新 
负荷 量 。” 

“ 马 处 长 一 定 是 经 常 接受 记者 采访 。 回 答 用 两 个 字 来 形容 是 : 完美 ， 三 个 字 来 说 
就 是 : 很 完美 ! ”， 等 下 面 的 笑 声 小 了 点 后 ， 徐 老师 顿 了 顿 ， 继 续 说 道 : “有 这 样 一 
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个 故事 : 一 个 电工 走 入 手术 室 ， 对 一 位 戴 着 氧气 单 的 垂危 病人 说 道 : “您 好 ! 请 您 ; 
呼吸 一 次 ， 这 里 需要 停电 五 分 钟 ! ”一 个 简单 的 笑话 ， 揭 露出 一 个 深刻 的 现实 : 电力 
负荷 预测 工作 没 做 好 ， 最 后 只 能 拉 闸 限 电 。” 


“原来 近 几 年 的 “ 闹 电 荒 ” 和 电力 负荷 预测 有 关系 ”， 航 天 研究 院 的 黄 主 任 若 有 
所 悟 的 感慨 道 。 


“ 徐 教授 ， 各 位 老总 ， 你 们 也 都 知道 电力 行业 是 垄断 性 质 的 ， 正 所 谓 树 大 招 风 ， 
一 有 差错 ， 就 遭 话 柄 。 因 为 这 个 拉 曾 限 电 ， 大 家 都 很 头疼 。 我 们 公司 ， 甚 至 整个 电网 
系统 ， 都 非常 重视 电力 负荷 的 预测 。 只 是 缺少 指导 ， 不 知道 从 哪里 下 手 哇 ” 刘 总 也 坦 
诚 给 大 家 说 出 了 心底 的 话 。 


徐 教授 便 开 始 了 专业 知识 的 解说 : “不 要 担心 ， 数据 挖掘 来 给 你 解 惑 。 电 力 负荷 
预测 有 一 大 法 宝 : 时 间 序列 分 析 预 测 。 时 间 序 列 是 按照 时 间 顺 序 排 列 的 、 随 时 间 变 化 
且 相互 关联 的 数据 序列 。 分 析 时 间 序 列 的 方法 构成 了 数据 挖掘 的 一 个 重要 领域 ， 即 时 
间 序 列 数据 挖掘 。 要 通过 对 时 间 序 列 的 分 析 达 到 认识 事物 、 了 解 其 变化 规律 的 目的 ， 
所 用 的 方法 主要 是 对 给 定 的 时 间 序 列 选择 合适 的 数学 模型 。 这 个 模型 通常 含有 有 限 的 
未 知 参数 ， 通 过 对 这 些 参 数 的 估计 ， 最 终 建立 起 数学 模型 。 当 模型 建立 以 后 ， 就 可 以 
根据 实际 需要 进行 预报 或 控制 。” 


徐 教授 环视 了 一 圈 ， 看 下 面 学员 的 反应 ， 有 的 人 在 听 ， 有 的 人 貌似 神游 了 。 


徐 教授 为 了 活跃 课堂 气氛 说 :“ 听 我 讲 完 估计 有 人 睡 着 了 , 除了 签发 “特困 证 明 ’， 
我 新 想 出 一 个 主意 ,来 帮助 想 睡觉 的 同学 : 就 是 我 们 悄悄 换个 教室 ， 等 那些 睡觉 的 人 
醒 来 后 就 会 发 现 ， 眼 睛 一 闭 一 睁 ， 老 师 和 同学 都 不 见 了 ……” 


专家 一 出 手 果 真 不 同 凡响 ,虽然 下 面 没有 学 员 真 睡 着 ,大 家 被 徐 教授 的 幽默 逗乐 
了 ， 睹 睡 虫 都 被 赶 跑 了 。 

徐 教授 接着 说 : “经 过 刚才 的 介绍 ， 相 信 在 座 的 各 位 已 经 明白 了 时 间 序 列 分 析 的 
基本 思想 。 对 时 间 序 列 分 析 的 目的 是 找 出 数据 的 变化 规律 ， 即 建立 线性 模型 从 而 实现 
预测 。 时 间 序 列 研究 的 数据 以 一 定时 期 (如 一 年 、 一 月 、 一 周 等 ) 为 一 周期 呈现 比较 
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有 规律 的 上 升 、 下 降 交 替 运 动 一 一 即 随 着 自然 季节 的 更 替 发 生 有 一 定 的 规律 性 ， 比 如 
淡季 和 旺季 。” 


刘 总 不 淡定 地 说 道 : “这 个 正好 和 用 户 用 电 的 特性 吻合 。 按 照 周 期 为 一 年 来 说 ， 
也 分 淡季 (一般 是 4 月份 左 右 ) 、 旺 季 (一 般 是 8 月 份 左右 ); 按照 周期 为 一 礼拜 、 
一 天 来 说 ， 也 分 用 电 低 谷 、 高 峰 。 比 如 居民 用 电 ， 周 末 一 般 比 工作 日 高 ， 一 天 内 晚上 
通常 较 白天 用 电 高 。” 


徐 教授 笑 着 回应 说 : “ 正 是 这 样 ， 所 以 时 间 序列 数据 挖掘 方法 可 以 用 在 电力 负荷 
预测 中 。 电 力 系统 时 间 序 列 的 建立 首先 要 对 样本 数据 进行 分 析 并 建立 样本 函数 ， 然 后 
依据 单位 时 间 内 电力 负荷 用 电量 的 样本 函数 而 确立 时 间 序 列 ， 最 后 进行 预报 。” 


王 总 说 : “我 之 前 看 过 一 个 资料 是 关于 电力 负荷 回归 分 析 法 的 。 回 归 分 析 电 力 
负荷 预测 是 通过 对 影响 因子 (如 国民 生产 总 值 、 工 农业 总 产值 、 人 口 、 气 候 等 ) 和 
用 电 的 历史 资料 进行 统计 分 析 ， 确 定 用 电量 和 影响 因子 之 间 的 函数 关系 ， 从 而 实现 
电力 预测 。” 

徐 教授 说 : “说 得 很 好 ! 在 回归 分 析 中 ， 选 用 何 种 因子 和 该 因子 采用 何 种 表达 式 
只 是 一 种 推测 , 这 影响 了 用 电 因子 的 多 样 性 和 某 些 因子 的 不 可 测 性 ,使 得 回归 分 析 在 
某 些 情况 下 受到 限制 。 与 回归 分 析 的 多 影响 因子 分 析 不 同 ， 时 间 序 列 分 析 仅仅 依靠 过 
去 某 时 间 段 的 电力 负荷 值 ， 建 立 模型 后 ， 直 接 预 测 未 来 的 电力 负荷 。” 


姚 局 长 问 : “ 徐 教授 ， 用 时 间 序 列 分 析 后 ， 预 测 的 结果 怎么 样 ? ” 


徐 教授 解释 道 : “大 家 看 图 ， 竖 直 虚 线 右边 曲线 就 是 根据 它 之 前 的 数据 时 间 序 列 
预测 出 来 的 。 阴 影 区 域 是 在 一 定 的 置信 水 平 限制 下 ， 未 来 趋势 可 能 出 现 的 位 置 。” 
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台 下 一 个 学 员 说 : “ 徐 教授 ， 这 时 间 序 列 分 析 建 模 的 过 程 想必 很 复杂 。 目 前 有 没 
有 什么 比较 成 熟 的 方法 ? ” 


徐 教授 回答 : “比较 经 典 的 建 模 方法 有 自 回 归 模 型 、 平 均 滑 动 模型 、 自 回归 滑动 
平均 模型 、 求 和 自 回 归 滑 动 模型 等 。 前 面 四 个 模型 针对 的 时 间 序 列 是 平稳 的 。 平 稳 时 
间 序 列 认 为 序列 其 统计 性 质 不 会 随 着 时 间 的 推移 而 发 生变 化 。 这 点 要 求 是 非常 高 的 ， 
实际 中 的 大 部 分 序列 都 是 非 平稳 的 。 这 时 候 , 求 和 自 回归 滑动 模型 就 可 以 帮助 我 们 解 
决 非 平稳 时 间 序 列 的 建 模 问 题 。” 


台 下 一 个 人 感慨 道 : “ 听 完 这 一 堆 名 词 ， 我 头 就 大 了 。” 


徐 教授 举例 说 : “以 求 和 自 回归 滑动 模型 来 说 ， 第 一 步 是 进行 模型 的 定 阶 和 识 
别 ， 即 估计 模型 中 的 p 和 q， 此 步骤 的 标准 有 AIC 准 则 〈Akaike 信 息 准 则 ) 等 。 在 模 
型 定 阶 和 参数 估计 后 ， 要 对 建立 的 模型 进行 考核 ， 基 本 做 法 是 检验 模型 的 误差 是 否 
为 白 噪 声 。 若 是 检验 认为 误差 服从 高 斯 分 布 ， 则 建 模 获得 通过 。 和 否则 要 重新 进行 定 
阶 和 参数 估计 。” 
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徐 教授 这 番 话 之 后 ， 学 员 表 示 头 大 ， 专 业 知 识 太 难 理解 。 


移动 的 梁 总 分 析 说 : “对 于 电力 系统 负荷 预测 ， 曲 线 越 接 近 目 前 的 情况 就 应 当 越 
准确 ， 而 对 于 过 去 很 久 的 数据 ， 不 必要 作 很 精确 地 拟 合 ， 类 似 惯 性 作用 。” 


徐 教授 接着 给 补充 道 : “ 梁 总 说 得 很 正确 。 其 实 作 为 决策 人 ， 在座 的 诸位 能 理解 
宏观 原理 就 可 以 了 。 外 边 盛传 已 久 的 “秘方 ”已经 告诉 诸位 了 ， 就 是 时 间 序 列 分 析 。 
秘方 里 面 还 有 一 个 不 可 或 缺 的 药 引子 ， 这 里 的 药 引 子 就 是 建 模 需要 的 数据 。 比 如 某 人 
就 是 利用 某 地 区 5 周 的 电力 负荷 数据 ， 通 过 刚 说 的 “秘方 ”， 确 定 了 “诊断 良 方 ”一 
一 预测 模型 ， 进 而 实现 关于 电力 负荷 的 预报 。” 

1000 上 
900 上 -一笑 娠 
800 上 2 
700 上 
600 上 
500 上 
400 上 


“ 徐 教授 ， 那 个 诊断 良 方 的 效果 怎么 样 啊 ? ” 刘 总 关切 地 问 道 。 

“根据 预测 出 来 的 结果 ， 对 比 真实 的 电力 负荷 ， 误 差 是 非常 小 〈 图 中 最 下 面 的 曲 
线 ) 。 且 预测 出 来 的 结果 很 容易 解释 : 周末 由 于 工业 负荷 的 减少 ， 负 荷 水 平 普 遍 比 平 
时 下 降 。 工 作 日 内 由 于 负荷 受气 温 的 影响 较 小 ， 民 用 及 工业 负荷 均 较 稳定 。” 徐 教授 
边 说 边 在 大 屏幕 上 展示 模型 的 结果 。 
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华润 的 万 总 说 : “这 个 预测 出 来 的 精度 很 不 错 ， 大 家 看 那个 误差 都 在 0 的 上 下 波 
动 ， 就 图 中 下 面 的 曲线 ， 完 全 处 于 可 接受 的 范围 内 。” 


“套用 高 优 代言 神州 行 的 话 就 是 ,数据 控 据 ， 我 看 行 ! ”， 听 完 之 后 ， 刘 总 按 所 
不 住 内 心 的 激动 喜悦 地 说 : “以 后 我 们 的 电力 服务 水 平 有 保障 了 ， 再 也 不 用 担心 拉 间 
限 电 挨 加 啦 。” 


3.5 ” 盗 电 检测 


EMBA 班 的 学 员 们 都 是 各 单位 的 领导 , 平时 业务 繁忙 , 没 时 间 去 享受 大 自然 的 族 
旋风 光 。 这 次 的 数据 挖掘 课 因 徐 教授 出 差 改 到 了 周 六 ， 在 众 学 员 的 提议 下 ， 徐 教授 将 
本 次 的 EMBA 课堂 搬出 了 室内 ， 组 织 成 为 户外 的 仆 山 活动 。 
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在 疏 山 路 上 ， 李 部 长 领头 唱 “ 红 歌 ”， 大 家 兴致 勃勃 地 附和 着 喝 ， 精 彩 程度 真 不 
逊色 于 全 明星 的 “红歌 演唱 会 。” 在 下 山 刚 抵达 山脚 的 时 候 ， 前 面 传 来 了 吵吵 闹 闹 的 
声音 。 大 家 次 过 去 一 看 ， 原 来 是 电力 稽查 人 员 在 现场 抓 住 了 两 个 实施 窃 电 的 贼 娃 子 ， 
双方 正在 进行 着 “拉锯 战 ”， 斗 智 斗 勇 …… 

在 离开 事 发 地 段 返回 宾馆 的 路 上 ， 大 家 还 在 讨论 刚 看 见 的 事情 。“ 这 窃 电 的 家 伙 
胆子 也 太 大 了 , 光天化日 之 下 搞 这 样 的 勾当 , 真是 吃 豹 子 胆 了 ! 这 不 , 被 抓 了 个 现行 ， 
不 知 错 还 想 抵抗 。” 李 部 长 感慨 道 。 

马 处 长 : “其 实 ， 盗 电 的 行为 还 是 比较 多 的 ， 能 抓 住 的 很 少 ， 他 们 就 更 肆 无 咏 悦 
了 ， 我 们 电力 公司 每 年 因此 损失 高 达 500 万 元 以 上 。” 


吃 过 晚饭 后 ， 徐 教授 开始 本 次 室外 的 课程 ，“ 今 天 下 午 大 家 看 到 有 人 光天化日 之 
下 盗 电 的 情景 ， 对 我 触动 很 大 ， 刚 才 临 时 作 了 一 个 决定 ， 将 今天 的 学 习 内 容 改 为 基于 
数据 挖掘 的 盗 电 检测 方法 。” 

徐 教授 停顿 了 片刻 ， 继 续 说 : “如 果 你 是 电力 公司 领导 ， 面 对 窃 电 行为 的 频频 发 
生 、 窃 电 手段 和 方式 的 专业 化 、 隐 蔽 化 ， 该 怎么 办 ?” 

“成 立 稽查 大 队 ， 微 服 私访 ， 实 地 侦察 ， 必 定 会 过 制 这 种 现象 的 发 生 。” 李 部 长 
率先 开始 献计 献策 。 

“应 该 杀 一 做 百 ， 发 现 窃 电 者 ， 一 律 严惩 不 贷 ， 这 样 有 个 威慑 作用 。” 华 润 公司 
的 万 总 说 出 了 自己 的 看 法 。 
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S 钢铁 公司 的 赵 总 也 赶忙 说 出 自己 的 意见 : “我 建议 建立 远程 集中 抄 表 系 统 ， 实 
时 监测 用 电 情 况 ， 一 旦 有 人 窃 电 ， 立 即 发 出 报警 信号 。” 

“ 窃 电 者 玩 高 科技 ， 以 其 人 之 道 还 治 其 人 之 身 ， 我 们 也 用 高 科技 对 付 。 就 是 不 知 
道 该 用 什么 技术 呀 ， 得 想 想 。” 税 务 局 姚 局 长 喃 喃 自 语 。 

徐 教授 点 评 道 : “综合 来 看 ， 大 家 每 个 人 都 有 一 个 侧重 点 ， 有 从 业务 人 员 层面 讲 
的 ， 有 从 技术 层面 讲 的 , 也 有 从 经 营 管理 层面 讲 的 ， 点 子 都 不 错 。 我 呢 ， 其 他 也 不 懂 ， 
就 知道 一 点 儿 数 据 挖掘 ， 就 从 数据 挖掘 的 角度 说 说 吧 。” 


“ 太 好 了 ， 徐 教授 ， 大 家 就 等 着 数据 挖掘 这 个 神秘 的 利器 出 场 呢 ， 看 看 数据 挖掘 
怎么 成 为 火眼金睛 的 ， 能 让 这 些 电 耗子 原形 毕露 。” 马 处 长 说 道 。 


= 


第 3 章 数据 挖掘 在 电力 行业 的 应 用 


“大 家 想 一 想 , 盗 电 用 户 的 最 大 特点 就 是 电费 少 交 了 , 这 与 该 企业 的 人 员 、 产值 、 
税收 等 形成 反差 , 使 其 用 电 行 为 属性 与 正常 的 用 户 存在 着 很 大 差别 。” 徐 教授 分 析 道 。 


“ 徐 教授 , 我 的 理解 是 , 通过 用 电 的 消费 行为 差异 性 来 区 别 普 通用 户 和 盗 电 用 户 ， 
具体 在 技术 上 是 通过 什么 方法 来 实现 呢 ? ” 听 完 徐 教授 的 介绍 ， 马 处 长 道 出 了 心中 的 
疑惑 。 


徐 教授 回答 说 : “你 说 得 很 对 ， 盗 电 用 户 有 着 与 普通 用 户 不 同 的 行为 特征 ， 必 将 
成 为 孤立 点 。 我 们 应 用 聚 类 分 析 方 法 ， 很 容易 让 那些 电 耗子 现 出 原形 。” 


马 处 长 又 问 道 “ 徐 老师 ， 聚 类 就 是 一 个 “类 内 相似 性 最 大 化 ， 类 间 相 似 度 最 小 
化 ”的 一 个 分 群 过 程 ， 聚 类 方法 有 很 多 种 ， 上 一 周 您 讲 过 有 基于 距离 的 聚 类 ， 基 于 网 
格 的 聚 类 ， 基 于 密度 的 聚 类 ， 还 有 视觉 聚 类 方法 等 ， 可 我 们 到 底 使 用 那 一 种 聚 类 方法 
进行 盗 电 检测 呢 ? ” 


“ 盗 电 检测 就 要 进行 孤立 点 分 析 ， 使 用 基于 密度 的 聚 类 方法 比较 合适 。” 徐 教授 


李 部 长 : “ 徐 老师 ， 以 前 您 详细 讲 过 基于 距离 的 聚 类 方法 ， 您 再 给 我 们 描述 一 下 
基于 密度 的 聚 类 方法 的 具体 步骤 吧 。” 


徐 教授 耐心 地 回答 道 : “基于 密度 的 聚 类 方法 主要 包含 以 下 几 个 步骤 ，《〈1) 读 
入 原始 数据 ， 并 对 这 些 数据 进行 《如 缺失 值 、 规 范 化 等 ) 预 处 理 ;《〈2) 设 定 参数 ， 
即 确定 邻 域 半径 大 小 或 邻 域内 样本 点 最 大 数 〈 即 密度 ) ; 《〈3) 确定 邻 域内 对 象 ， 判 
断 是 否 在 邻 域 内 ， 若 不 是 继续 选取 样本 点 ， 若 是 最 后 输出 结果 。 结 果 中 ， 不 包含 在 任 
何 秘 中 的 对 象 被 认为 是 “噪音 ”、“ 和 孤立 点 ”或 “异常 值 ”， 比 如 下 图 中 的 红 箭头 所 
示 样 本 点 ， 也 就 是 可 能 的 盗 电 用 户 。” 
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“通过 对 用 户 用 电 数 据 的 聚 类 分 析 , 反 窃 电 的 业务 人 员 就 能 对 锁定 的 目标 重点 侦 
查 ， 可 以 有 效 地 防止 盗 电 现象 发 生 。 这 样 一 方面 提高 了 窃 电 客户 识别 率 ， 同 时 还 能 节 
省 电力 部 门人 力 资源 ， 为 反 窃 电工 作 提供 了 另外 一 种 思路 。” 徐 教授 对 本 次 的 学 习 做 
了 个 小 结 。 


税务 局 的 姚 局 长 于 此 得 到 启发 : “ 哦 ， 这 么 说 除了 电力 行业 的 窃 电 检测 ， 扳 立 点 
分 析 也 可 以 用 于 银行 的 反 洗 钱 侦察 、 税 务 部 门 的 偷税 、 漏 税 活动 甄别 吧 ? ” 


徐 教 授 肯 定 了 姚 局 长 的 观点 ， 并 指出 将 在 后 续 的 课程 中 将 给 大 家 讲述 这 些 内 容 。 
3.6 电力 数据 挖掘 系统 的 构建 


一 上 课 ， 徐 教授 说 起 数据 挖掘 在 国家 电网 的 应 用 动态 : “熟悉 电力 部 门 的 人 都 知 
道 ， 今 年 国家 电网 成 立 了 一 个 新 部 门 : 运营 监测 〈 控 ) 中 心 ， 在 总 部 和 省 公司 两 级 部 
署 。 目 标 实现 对 公司 经 营 管理 24 小 时 即时 在 线 监测 分 析 ， 实 现 对 规划 、 建 设 、 运行、 
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检修 、 营 销 、 人 资 、 财 务 、 物 资 等 业务 全 方位 监测 分 析 ， 实 现 对 计划 预算 、 资 金 收 支 、 
电力 购销 、 资 产 全 寿命 周期 、 供 电 服务 、 产 业 发 展 、 金 融 领域 等 全 流程 监测 分 析 ， 构 
建 集 全 面 监测 、 运 营 分 析 、 协 调控 制 、 全 景 展示 于 一 体 的 综合 管控 平台 。 ” 


航天 研究 院 的 黄 主 任 说 道 : “ 徐 教授 ， 您 这 么 一 说 ， 我 也 想起 一 个 类 似 应 用 跟 大 
家 分 享 。 我 们 曾经 针对 某 研究 建立 过 一 个 IMS 系统 ， 就 是 针对 公司 所 有 的 IT 信息 系 
统 进行 监测 和 分 析 。 包 括 桌 面 安全 、 业 务 系统 使 用 情况 的 监控 。 我 理解 的 是 运营 监测 
( 控 ) 中 心 是 将 对 象 扩大 至 整体 业务 的 方方面面 了 吧 。?” 


徐 教授 点 头 肯定 道 : “是 的 ， 你 说 的 IMS 和 电网 的 运营 综合 管控 平台 ， 二 者 区 
别 在 于 监测 对 象 的 差异 。 电 网 的 监测 和 管控 侧重 点 在 全 面 性 和 重点 业务 的 平衡 把 握 ， 
打破 不 同业 务 部 门 之 间 的 壁 又 ， 形 成 高 效 地 协作 机 制 。 这 就 离 不 开 数 据 挖 掘 ， 比 如 在 
监测 内 容 的 指标 梳理 、 监 测 内 容 的 高 级 深入 分 析 上 ， 数 据 挖掘 都 可 以 开展 很 多 工作 。 
利用 数据 挖掘 技术 建立 公司 综合 绩效 、 发 展 能 力 、 竞 争 能 力 、 风 险 管控 等 方面 的 模型 ， 
对 公司 的 整体 运营 情况 中 存在 的 异动 和 问题 进行 预警 、 分 析 ， 并 协调 解决 。” 

“ 徐 老师 ， 听 了 这 几 节 课 和 您 刚 讲述 的 电网 运营 监控 ,我 感觉 数据 挖掘 确实 能 够 
在 我 们 电力 行业 有 广阔 的 应 用 前 景 ， 很 有 必要 构建 电力 数据 挖掘 平台 ， 可 怎么 建立 
呢 ? ” 马 处 长 急切 地 问 。 

“ 若 想 构 建 企业 级 数据 挖掘 系统 ， 最 好 先 建立 企业 级 的 数据 仓库 。” 徐 教授 建议 
说 。 

“数据 仓库 ? 好 办 ， 我 们 已 经 花 了 两 年 时 间 建 立 了 电力 数据 中 心 ， 在 此 基础 上 ， 
考虑 到 数据 挖掘 的 各 种 主题 ， 如 设备 状态 检修 及 寿命 评估 、 电 力 稳定 性 分 析 、 负 荷 预 
测 、 盗 电 检测 和 规划 设计 等 ， 很 快 就 会 建立 起 支撑 数据 挖掘 的 电力 数据 仓库 。” 马 处 
长 激动 地 说 。 

徐 教授 说 : “好 ， 下 面 给 大 家 简单 介绍 一 下 企业 级 数据 挖掘 平台 的 体系 结构 ， 请 
大 家 看 大 屏幕 。” 
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“处 于 最 底层 的 是 数据 服务 层 ， 对 来 源 于 异种 结构 的 数据 进行 转换 、 喘 射 、 清 
洗 等 操作 ， 为 数据 挖掘 进行 数据 准备 。 数 据 挖 掘 服务 平台 主要 用 来 实现 各 种 模型 的 
建立 。 服 务 层 是 展示 平台 和 数据 挖掘 服务 平台 的 中 间 纽 带 , 管理 和 控制 各 专业 模块 ， 
并 建立 与 数据 库 的 连接 ， 响 应 用 户 的 操作 请 求 。” 


马 处 长 激动 得 不 得 了 : “不 错 ! 不 错 ! 如 果 有 了 电力 数据 挖掘 平台 ， 我 这 个 副 处 
长 就 可 以 官 复原 职 啦 ! ” 


教室 里 一 阵 笑 声 。 
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1978 年 ， 邓 小 平 造 访 日 本 。 期 间 ， 上 日 方 安排 邓小平 搭乘 世界 首 条 载 客 营 运 的 高 
铁 一 日 本 新 干线 。 坐 在 宽敞 笋 亮 的 车 厢 中 ， 凝 视 着 窗外 急速 飞 过 的 模糊 风景 ， 邓 人 小 
平 感慨 称 : “新 干线 推荐 人 们 跑 ， 我 们 现在 很 需要 跑 。” 斗 转 星 移 ， 随 着 国内 高 速 铁 
路 的 快速 发 展 ，“ 中 国 高 铁 ” 的 梦想 ( 像 风 一 样 快 ) 已 经 成 为 现实 。 与 此 同时 ， 高 铁 
也 引起 了 人 们 的 广泛 关注 ， 其 票 价 和 安全 性 等 无 一 不 是 民众 时 常 议论 的 话题 。 

此 外 , 智能 交通 系统 是 近年 来 迅速 发 展 的 城市 道路 、 高 速 公路 控制 管理 的 新 技术 。 
该 系统 是 由 先进 的 交通 管理 、 控 制 、 营 运 调度 等 信息 系统 组 成 。 其 目标 是 将 运输 系统 
中 的 人 、 车 、 路 三 要 素 紧密 地 结合 在 一 起 ， 最 大 限度 地 发 挥 整个 交通 系统 的 效率 。 良 
好 的 交通 流量 预测 ， 是 智能 交通 系统 的 实时 交通 信号 控制 、 交 通 分 配 、 路 径 诱导 、 自 
动 导 航 ， 事 故 检测 等 的 前 提 。 

鉴于 此 ， 徐 教授 专门 安排 两 节 课 来 讨论 数据 挖 气 在 高 铁 票 价 的 制定 、 高 铁轨 道 
安全 性 检测 和 交通 流量 预测 中 的 应 用 。 


4.1 铁路 票 价 制定 


徐 教授 开课 讲 道 : “近年 来 ， 我 国 高 速 铁路 建设 非常 迅速 。 根 据 铁道 部 的 规划 ， 
到 2020 年 ， 全 国 将 建设 高 速 铁路 1.6 万 公里 以 上 ， 铁 路 快速 客运 网 将 覆盖 全 国 90% 
以 上 人 口 ， 形 成 “四 纵 四 横 ” 的 高 速 铁路 网 。” 


谈 到 这 几 年 中 国 高 铁 的 成 就 ， 铁 路 局 高 局 长 喜 形 于 色 ， 骄 傲 地 说 : “中 国 高 铁 在 
短 时 间 内 密集 地 取得 了 一 系列 成 果 : 2008 年 8 月 1 日 ， 中 国 第 一 条 具有 完全 自主 知 
识 产权 、 世 界 一 流水 平 的 高 速 铁 路 京 津 城 际 铁路 通车 运营 ， 最 高 运行 时 速 350 公里 。 
2009 年 12 月 26 日 ， 世 界 上 里 程 最 长 、 工 程 类 型 最 复杂 的 武 广 高 速 铁路 开通 运营 ， 
创造 了 时 速 350 公里 隧道 内 会 车 、 两 列 重 联 条 件 下 双 马 受 流 等 一 系列 世界 新 纪录 。 武 
广 高 铁 昭 示 着 我 国 能 够 建设 工程 类 型 齐全 、 大 规模 、 长 距离 、 世 界 一 流 的 高 速 铁路 。 
2010 年 2 月 6 日 世界 首 条 修建 在 湿 陷 性 黄土 地 区 ， 时 速 350 公里 的 郑 西高 速 铁 路 
开通 运营 , 标志 着 我 国 能 够 在 国外 未 曾 预见 到 的 特殊 复杂 地 质 条 件 下 建设 世界 一 流 高 
速 铁路 。2010 年 7 月 1 日 ， 沪 宁 城 际 高 速 铁路 的 开通 运营 ， 是 在 深厚 软 土地 区 建设 
速度 最 快 、 运 行 速度 最 高 的 高 速 铁路 。2011 年 6 月 30 日 京 沪 高 铁 正式 开通 运营 。 作 
为 新 中 国 成 立 以 来 建设 里 程 最 长 、 投 资 最 大 、 标准 最 高 的 高 速 铁路 , 京 沪 高 铁 贯通 “三 
市 四 省 ”， 串 起 京 沪 “ 经 济 走 廊 ”。?” 


听 着 听 着 ， 马 处 长 轻 轻 地 禹 了 儿 下 桌子 : “高 局 长 ， 你 说 的 全 国人 民 都 知道， 成 
绩 不 说 跑 不 了 ， 问 题 不 说 不 得 了 1 ” 

高 局 长 被 马 处 长 的 当头 一 棒 打 异 了 ， 还 没 来 得 及 反应 ， 李 部 长 也 开始 抱怨 起 来 
“前 一 段 时 间 ， 网 上 盛传 的 一 张 沪 杭 高 铁 “ 一 人 一 车 厢 ” 的 照片 ， 局 长 大 人 难道 视 而 
不 见 吗 ?” 
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“您 再 听 听 老百姓 的 呼声 吧 ! ”航天 集团 的 黄 主 任 说 话 时 情绪 有 些 激动 。 


学 员 们 将 街 上 听 到 的 、 网 上 和 电视 上 看 到 的 人 们 对 高 铁 票 价 的 怨恨 纷纷 暴露 出 
来 ; 


“大 贵 了 ， 高 铁 票 价 是 普通 绿 皮 车 的 7~8 信 ……” 
“ 买 不 起 ， 不 考虑 坐 。 高 铁 ， 价 格 那么 高 ， 乘 客 怎么 会 去 追捧 ? 够 不 着 ! ” 
“高 铁 是 贵族 专列 ， 哈 时 候 能 照顾 一 下 小 老百姓 呀 !” 


“用 大 部 分 纳税 人 的 钱 来 建设 ， 却 只 让 小 部 分 人 乘坐 ， 浪 费 国家 资源 ! ” 


徐 教授 打 了 个 停止 的 手势 ， 说 道 “对 于 高 铁 票 价 问题 ， 我 们 听 听 铁路 局 高 局 长 
的 介绍 ， 一 起 来 了 解 一 下 铁路 部 门 是 怎么 应 对 的 。” 
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经 过 刚才 的 “ 炮 友 ”， 高 局 长 这 次 谦卑 多 了 ， 站 起 来 答 道 : “高 铁 以 350 公里 运 
行 的 时 候 ， 武 广 高 铁 上 座 率 比较 低 ， 不 足 四 成 。 应 对 大 众 高 票 价 的 质疑 声 ， 武 广 高 铁 
采取 的 主要 手段 是 通过 降 速 来 降低 票 价 。 现 在 高 铁 的 运行 速度 都 已 经 降 速 至 300 公里 
以 内 ， 上 座 率 也 提高 到 74%。” 


马 处 长 问 道 : “高 局 长 ， 目 前 的 武 广 高 铁 票 价 是 个 什么 水 平 ? 购 高 铁 票 时 有 什么 
优惠 政策 ? ” 


高 局 长 回答 说 : “目前 武 广 高 铁 分 一 等 高 铁 票 和 二 等 高 铁 票 ， 每 公里 价格 分 
别 为 0.729 元 和 0.459 元 ， 无 打折 计划 。 普 通 人 购 票 时 无 个 人 优惠 ， 但 是 有 团体 
优惠 。 在 非 春运 期 间 ， 满 20 人 团购 可 免 收 1 人 票 价 ，20 人 以 上 每 增加 10 人 再 
免 收 1 人 票 价 。” 


放 
Natit 
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李 部 长 经 常 全 国 各 地 跑 ， 对 于 出 行 选 择 乘 飞机 还 是 高 铁 ， 他 颇 有 研究 : “其 实 
高 铁 的 二 等 票 相当 于 飞机 经 济 舱 的 5 一 6 折 之 间 。 因 为 飞机 要 有 机 场 建设 费 和 燃油 
费 ， 所 以 一 般 情况 下 5 折 以 下 的 机 票 在 价格 上 可 以 和 高 铁 比拼 。” 


南航 的 陆 经 理 表 示 : “是 的 ， 这 给 我 们 民航 部 门 的 飞机 运行 带 来 了 很 大 压力 。 
有 专家 预测 ， 在 中 国 高 铁 高 速 发 展 的 当下 ， 如 果 高 铁 能 够 适当 降低 票 价 ， 就 能 
引 更 多 乘客 ， 从 而 形成 规模 效应 ， 实 现 良性 循环 。 到 时 候 ， 我 们 民航 真 的 要 喝 西 
北 风 了 。” 


高 局 长 也 为 难 地 说 : “都 一 样 ， 我 们 高 铁 部 门 的 日 子 也 不 好 过 啊 ， 现 在 国家 铁 
路 整体 负债 率 高 达 60%， 直 逼 国际 负债 警戒 值 。 大 家 都 知道 高 铁 运营 成 本 高 ， 如 果 
票 价 太 低 就 很 难 偿还 债务 ， 更 别 说 乔 利 了 。” 

徐 教授 : “总 体 来 说 ， 高 铁定 价 是 个 很 复杂 的 问题 ， 要 顾及 多 方面 的 因素 。 比 如 
老百姓 的 消费 水 平 , 铁路 部 门 的 成 本 回收 问题 , 还 有 民航 等 竞争 部 门 的 利益 等 。 但 是 ， 
目前 国内 的 高 铁 票 价 制定 还 基本 上 是 停留 在 根据 线路 运营 里 程 乘 以 单价 的 方式 上 。” 

马 处 长 又 提问 道 : “以 路 线 长 度 乘 以 单价 来 计算 高 铁 价格 ， 这 个 方式 的 好 处 是 比 
较 容 易 理 解 ， 便 于 业务 人 员 管 理 。 徐 老师 ， 您 觉得 目前 国内 的 这 种 高 铁定 价 方法 有 哪 
些 不 足 之 处 ? ” 


= 3 


数据 挖 所 6 


徐 教授 说 道 : “从 票 价 来 说 ， 目 前 划分 是 一 等 票 价 和 二 等 票 价 。 即 使 是 减速 降价 ， 
高 铁 的 票 价 还 是 过 于 “一 刀 切 ”。 若 是 淡季 、 旺 季 ， 早 班 、 晚 班 ， 直 达 、 停 站 多 的 列 
车 班次 全 都 采取 统一 票 价 ， 这 种 票 价 体系 还 是 不 够 灵活 。” 


李 部 长 也 问 道 : “高 局 长 ， 在 高 铁 票 价 制定 上 ， 国 外 有 什么 先进 经 验 值得 我 们 借 


高 部 长 对 此 曾经 花 时 间 研 究 过 ， 畅 谈 起 来 : “世界 上 大 多 数 国家 的 高 速 铁路 ， 
都 采取 丰富 的 差异 化 定价 。 比 如 德国 提供 了 复杂 的 价格 优惠 制度 : 不 经 常 乘坐 火车 
的 旅客 往往 都 会 购买 一 张 火车 票 打 折 的 年 卡 。50 欧元 的 年 卡 在 全 年 任何 时 候 购 票 都 
可 以 享受 7.5 折 优 惠 ，200 欧元 的 年 卡 则 可 以 享受 5 折 优 惠 。 另外 ， 买 往返 票 会 有 折 
扣 ; 如 果 往 返 行程 中 ， 隔 着 一 个 周末 ， 又 有 优惠 ; 提前 24 小 时 、72 小 时 、7 天 、14 
天 购 票 的 优惠 幅度 是 不 同 的 。” 
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鼓 风 动力 集团 的 王 总 接着 问 道 : “未 来 ,竞争 将 迫使 我 国 铁路 部 门 重新 考虑 以 优 
质 服务 吸引 客 源 ， 比 如 降低 非 高 峰 时 段 的 票 价 。 世 界 上 像 德 国 这 样 实行 高 铁 票 价 优惠 
的 国家 多 吗 ? ” 


高 局 长 继续 回答 道 : “基本 上 发 达 国 家 高 铁定 价 都 有 优惠 。 比 如 法 国 ， 有 一 种 
国家 规定 的 优惠 政策 ， 主 要 内 容 有 家 庭 成 员外 出 坐 火车 ， 三 个 以 上 小 孩 ， 最 少 可 以 
减 价 30%、 最 多 可 以 减 价 70%。 另 外 ， 每 天 工作 往返 同一 条 线路 优惠 ， 对 军人 乘 车 
可 以 优惠 ， 军 人 自己 出 的 票 价 23%， 铁 路 部 门 出 24.6%， 国 家 补助 50.4%。” 


徐 教授 总 结 道 : “虽然 各 个 国家 采取 的 优惠 措施 有 所 差异 ， 但 彰显 的 是 一 个 事 
: 合适 的 定价 是 提高 高 铁 上 座 率 的 保障 。” 


将 


高 局 长 :， “ 徐 老师 ， 那 从 数据 挖掘 的 角度 来 看 ， 能 为 高 铁定 价 提供 哪些 思路 ， 
您 给 我 们 支 支 招 吧 。” 


徐 教授 回答 道 :“ 第 一 个 典型 的 手段 就 是 通过 聚 类 分 析 将 市 场 切 制 为 不 同 的 市 场 ， 
根据 旅客 消费 特征 的 差异 性 确定 不 同 价格 。 这 个 在 实际 应 用 中 也 很 容易 理解 ， 因 为 不 
同 群体 的 消费 意愿 和 支付 能 力 不 同 ， 因 此 需求 价格 的 弹性 也 有 高 有 低 。 这 样 针 对 不 同 
细 分 市 场 制定 不 同 价格 ， 采 取 各 种 营销 活动 ， 就 可 以 实现 利润 最 大 化 的 目标 。” 


高 局 长 对 徐 教授 讲 的 更 加 感 兴趣 了 ， 继 续 请 求 道 “ 徐 老师 ， 您 还 是 讲 一 个 实际 
的 例子 ， 让 我 们 更 容易 地 理解 这 种 市 场 细 分 的 手段 吧 。” 


徐 教授 : “大 家 知道 ,法国 的 高 速 公路 非常 发 达 ， 承担 了 法 国 国内 90% 的 客运 量 
和 60% 的 货运 量 ， 所 以 其 铁路 部 门 的 竞争 压力 非常 之 大 。2000 年 以 前 ， 法 国 铁路 部 
门 每 年 都 在 亏损 ， 政 府 每 年 都 要 补贴 铁路 部 门 几 十 亿 法 郎 。” 


马 处 长 证 异地 说 : “铁路 部 门 为 垄断 行业 ， 还 赔钱 ， 不 可 思议 ! ” 
高 局 长 也 笑 着 说 : “是 的 ， 确 实 是 这 样 。” 
徐 教授 : “不 过 ， 后 来 局 势 被 扭转 了 ， 秘 密 武器 就 是 数据 挖掘 。” 
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高 局 长 兴趣 更 浓 了 : “原来 我 并 不 知道 其 中 玄机 ， 徐 老师 您 就 带领 我 们 开 开 眼界 
吧 。” 


徐 教授 继续 刚才 的 话题 说 道 : “法 国 铁路 部 门 在 不 断 提高 服务 质量 的 同时 ， 制 定 
高 铁 票 价 时 ， 尊 重 价值 规律 ， 在 不 突破 国家 定价 的 基础 上 ， 依 据 旅客 市 场 细 分 结果 来 
制定 高 铁 票 价 。” 


高 局 长 对 聚 类 算法 已 经 比较 了 解 了 ， 他 觉得 对 旅客 数据 进行 聚 类 分 析 已 胸 有 成 
竹 ， 便 说 道 : “相信 我 们 大 家 现在 都 不 会 关注 聚 类 的 过 程 了 。 徐 教授 ， 你 还 是 详细 地 
给 大 家 讲 一 讲 聚 类 后 对 不 同 旅客 群体 如 何 设计 营销 策略 吧 。?” 


徐 教授 调 出 一 张 PPT 来 帮助 学 员 理 解 : “ 聚 类 的 结果 显示 ， 旅 客 可 分 为 三 类 。 经 
常 坐 火 车 的 A 类 : 优惠 的 幅度 最 大 ， 积 累 一 定 的 里 程 数 ， 可 免费 乘坐 ,而 且 可 以 享受 
其 他 的 优惠 待遇 。 比 较 经 常 坐 火车 的 B 类 : 可 以 花 一 定 费用 来 买 优 惠 卡 ， 最 大 减 价 幅 
度 可 达 50%， 使 他 们 由 比较 爱 坐 火车 过 渡 到 经 常 坐 火车 。 偶 尔 乘坐 火车 的 C 类 : 主 
要 是 60 岁 以 上 老人 、25 岁 以 下 的 年 轻 人 ， 对 他 们 减 价 23%， 使 他 们 对 坐 火 车 逐步 感 
兴趣 。” 


B 较 经 常 坐 火车 


CT 经 常生 火车 A 经 常 坐 火车 


徐 教授 将 光 笔 指向 PPT 图 上 尖 尖 重叠 的 部 分 , 继续 说 道 :“ 观 察 聚 类 的 动态 过 程 ， 
可 以 发 现 A 类 立体 戏 和 B 类 立体 徐 有 一 定 的 交叉 部 分 ， 这 说 明 部 分 旅客 同时 满足 优 
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惠 A、B 条 件 ， 只 要 实际 中 限制 不 可 重复 享受 优惠 即 可 。 这 是 由 于 在 聚 类 过 程 中 的 坐 
车 频次 相关 参数 设置 区 域 交 故 引起 的 。” 


高 局 长 说 道 : “明白 了 ， 应 该 是 按照 乘 车 频次 初步 分 了 三 类 旅客 : 不 经 常 坐 火车 
的 、 比 较 经 常 坐 火车 的 、 经 常 坐 火 车 的 。 然 后 根据 年 龄 、 乘 客 身份 、 乘 车 档次 等 信息 
进行 了 群体 聚 类 再 划分 。 最 后 针对 这 些 群 体 ， 制 定 并 实行 差异 化 的 服务 策略 。” 


“是 的 ， 理 解 地 非常 到 位 。 当 然 减 价 原则 并 非 一 成 不 变 的 ， 还 要 根据 具体 的 情况 
确定 具体 的 减 价 幅度 。 如 旅游 淡 旺 季 的 变化 ， 运 行 高 峰 、 低 谷 的 变化 ， 铁 路 运行 线路 
是 否 有 竞争 对 手 等 情况 确定 价格 优惠 的 幅度 ，” 徐 教授 进一步 说 道 。 


高 局 长 说 道 : “顾客 差异 化 定价 就 是 企业 对 同一 产品 ， 根 据 不 同 的 销售 对 象 、 不 
同 的 消费 地 点 和 不 同 的 销售 时 间 、 不 同 产品 等 方面 的 需求 差异 而 制定 不 同 的 价格 。 随 
着 社会 阶层 分 化 ， 公 众 的 个 性 化 需求 不 断 增加 ， 这 样 的 好 处 就 是 采用 服务 和 价格 的 不 
同 搭配 销售 策略 ， 向 用 户 提供 更 多 选择 。 除 了 这 个 细 分 市 场 ， 在 票 价 制定 上 还 有 什么 
数据 挖掘 方法 可 以 指导 票 价 制定 ， 从 而 实现 经 营利 润 最 大 化 呢 ? ” 


徐 教 授 继 续 说 道 : “ 票 价 制定 的 另外 一 种 方法 就 是 通过 回归 分 析 等 技术 手段 对 高 
铁 票 价 进行 动态 预测 。” 


高 局 长 听 到 徐 教授 还 有 一 招 ， 真 是 喜出望外 ， 急 忙 问 道 : “ 徐 老师 ， 高 铁 票 价 预 
测 需 要 考虑 哪些 变量 呢 ? ” 


徐 教授 解答 道 : “一 般 需 要 考虑 以 下 几 种 因素 : 〈1) 高 铁 运行 成 本 ， 包 括 运行 
距离 、 运 行 时 间 、 沿 线路 网 耗费 、 旅 客流 量 等 ; 〈2) 竞争 对 手 的 价格 ， 如 航空 、 公 
路 的 优惠 情况 ， (3) 市 场 的 周期 性 ， 比 如 淡 、 旺 季 、 节 假日 等 信息 。 不 同 预测 计算 
中 , 上 述 儿 种 因素 考察 的 重点 应 有 所 不 同 。 以 运行 成 本 为 例 , 可 分 为 平均 成 本 定价 法 、 
丛 亏 平衡 定价 法 、 目 标 收益 定价 法 、 变 动 成 本 定价 法 、 边 际 成 本 定价 法 等 。 因 为 市 场 
中 高 铁 票 价 也 是 一 个 动态 发 展 过 程 ， 所 以 预测 出 其 未 来 一 段 时 间 的 变化 趋势 ， 实 行 浮 
动 式 的 高 铁 票 价 制定 ， 必 将 有 助 于 灵活 应 对 市 场 不 断 变 化 的 需求 。” 
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高 局 长 得 到 了 启发 ， 也 认同 地 表示 : “根据 分 析 结 果 ， 可 以 策划 各 种 促销 活动 ， 
和 
折扣 ， 就 能 最 大 程度 地 刺激 顾客 的 车 票 购买 欲望 。” 


徐 教授 建议 道 : On be Mein oe 优惠 价 、 积 
分 换 里 程 ， 或 者 免费 车 而 升级 服务 ， 从 而 满足 不 同 层次 群体 的 需求 。” 


下 课 铃 响 了 ， 高 局 长 提议 说 : “让 我 们 以 热烈 的 掌声 感谢 徐 教授 给 我 们 带 来 如 
此 精彩 的 关于 高 铁 票 价 制定 的 技术 方法 ,但 愿 我 们 铁路 部 门 能 够 采用 这 些 先进 技术 ， 
给 老百姓 带 来 真正 的 实惠 ， 使 全 国人 民 人 人 都 能 享受 中 国 高 铁 的 丰硕 成 果 ! ” 


徐 教授 带头 拍手 , 教室 里 掌声 震 天 , 大 家 都 对 未 来 高 铁 票 的 合理 定价 充满 信心 。 
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4.2 ”高 铁轨 道 检 修 


“ 台 下 的 都 是 成 功 人 士 , 肯定 为 飞机 和 高 铁 贡献 了 不 少 Money! 我 们 先 来 做 个 小 
调查 : 不 知道 大 家 选择 出 行 工具 时 ， 是 选择 灰 机 还 是 高 铁 ? ” 徐 教授 开场 说 道 。 

“ 徐 老师 ， 尽 管 现 在 飞机 都 成 灰 机 了 ， 我 还 是 坚定 不 移 地 选 灰 机 。” 李 部 长 带头 
给 出 了 自己 的 选择 。 


“高 铁 吧 ， 与 时 俱 进 嘛 。 灰 机 航班 经 常 延误 。” 马 处 长 也 跟着 说 出 自己 的 抉择 。 


经 常 出 差 的 万 总 说 道 : “ 乘 高 铁 吧 ， 飞 机 不 安全 ， 总 觉得 离 地 了 就 没 安全 感 。 听 
说 葛优 就 是 因为 恐 高 从 来 不 搭 飞机 ! ” 


南航 的 陆 经 理 也 表达 了 自己 的 观点 : “高 铁 也 不 见得 安全 ，2011 年 7 月 23 日 晚 
上 20 点 30 分 左右 ， 和 甬 温 线 永嘉 站 至 温州 南 站 间 ， 北 京 南 至 福州 D301 次 列车 与 杭州 
至 福州 南 D3115 次 列车 发 生 追 尾 事故 。 所 以 我 还 是 选 乘 我 们 民航 的 飞机 , 技术 上 相对 
新 兴 的 高 铁 更 成 熟 一 些 。” 


“是 啊 ， 国 内 高 铁 时 速 都 380 
公里 了 ， 这 速度 快 了 也 让 人 担心 。 
之 前 听 朋 友 调 侃 高 铁 : “ 按 中 央 气 
象 台 的 路 径 显示 ，10 年 来 威力 最 
强 的 台风 梅花 会 探 着 南京 过 啊 ! 干 
脆 把 我 吹 回 北京 得 了 , 估计 比 坐 高 
铁 安全 ……””S 钢铁 公司 的 赵 总 
道 出 了 人 们 对 高 铁 安全 的 担心 。 


电信 公司 的 冯 总 也 打趣 说 : 
“是 啊 ， 现 在 高 铁 安全 已 经 被 提升 至 风口 浪 尖 了 。 前 些 日 子 ， 就 有 全 副 武装 的 高 铁 安 
全 帽 哥 引 发 网 友 围观 。 他 所 必 备 的 乘 车 设备 有 安全 帽 、 自 制 安全 带 、 手 电 简 、 瑞 士 军 
刀 、 扇 子 、 花 露水 、DV、 雨 企 、 云 南 白药 …… 真 可 谓 是 全 副 武装 ! ” 
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“大 家 说 了 这 么 多 ， 实 际 上 可 以 一 言 而 蔽 之 : 高 铁 的 安全 性 问题 。” 徐 教授 顺势 
引出 这 一 节 课 的 内 容 。 


高 局 长 听 到 徐 教授 又 要 讲解 高 铁 安全 问题 ， 高 兴 得 合 不 扰 嘴 : “运营 安全 是 高 
的 核心 ， 高 于 一 切 。 高 铁 安 全 是 靠 系统 工程 来 保障 的 ， 整 个 高 速 铁路 的 建设 过 程 ， 无 
论 是 从 勘察 设计 、 建 筑 工程 、 产 品 设备 安装 工程 ， 都 严格 地 进行 质量 控制 。 高 铁 列 车 
运行 的 机 械 化 和 自动 化 程度 非常 高 ， 有 着 极 高 的 安全 系数 。” 


听 着 高 局 长 的 自我 陶醉 马 处 长 有 点 不 淡定 了 : “都 追尾 了 ， 还 自 吹 自 擂 什 么 ! ” 


徐 教授 赶紧 灭火 : “我 国 的 高 铁 经 过 十 几 年 的 引进 、 消 化 吸收 、 创 新 , 谦虚 地 说 ， 
从 总 体 上 已 经 赶 上 了 国际 先进 水 平 。 不 谦虚 地 说 , 在 很 多 方面 已 经 代表 着 国际 水 平 。” 


徐 教授 故意 停顿 下 来 ， 观 察 了 一 下 大 家 对 他 所 说 的 话 的 反映 ， 见 没有 人 异议 ,于 
是 继续 说 道 : “看 来 大 家 还 是 认可 我 的 说 法 ， 下 面 我 们 以 高 铁轨 道 检测 为 例 ， 说 一 说 
数据 挖掘 技术 在 高 铁 的 安全 保障 中 的 应 用 。” 


税务 的 赵 局 长 说 起 自己 曾经 奔赴 日 本 考察 , 在 乘 新 干线 火车 时 了 解 到 的 情况 :“ 据 
同行 车 上 的 轨道 维修 师傅 描述 , 他 们 是 根据 轨道 轨 检 车 每 10d 检测 一 遍 的 具体 资料 确 
定 工作 量 。 由 于 新 干线 为 客运 专线 ， 轴 重 轻 (原来 轴 重 为 15 吨 ， 现 减 小 到 11 吨 ) ， 
板式 轨道 比重 大 板式 轨道 占 539%6) ， 故 轨道 几何 尺寸 变化 较 小 。” 


高 局 长 对 徐 教授 的 上 课 模 式 已 经 摸 透 了 ,不 用 说 , 徐 教授 肯定 让 他 介绍 高 铁轨 道 
检测 现状 。 果 然 徐 教授 抬 手 示意 他 表达 高 铁 现状 ， 于 是 他 站 立 起 来 说 道 : “ 随 着 高 铁 
的 繁忙 运行 ， 日 客流 量 的 不 断 增 长 ， 高 铁 线路 的 几何 形 位 也 会 产生 变化 ， 轨 道 结构 也 
会 产生 损坏 。 现 在 多 采用 雷达 检测 车 对 路 基 和 轨道 进行 快速 、 无 损 地 连续 检测 ， 还 可 
以 进行 多 通道 载荷 、 位 移 测试 。 其 检测 速度 一 般 能 够 达到 40km/h， 而 且 排 除了 各 种 
人 为 因素 的 干扰 ， 获 得 真实 信息 ， 这 就 为 轨道 设备 保持 良好 状态 提供 了 保障 。” 

徐 教授 补充 道 : “在 检测 过 程 中 ， 收 集 了 图 像 传感器 、 超 声波 探伤 、 雷 达 测 试 、 
激光 光电 、 其 他 各 种 轨道 检测 设备 获取 的 大 量 信息 ， 比 如 仅 1 公里 线路 上 轨 检 车 最 高 
采样 点 可 达到 4100 多 个 。” 
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轨道 质量 相关 数据 

轨道 几何 尺寸 ( 轨 距 、 水 平 、 轨 向 、 尖 趾 距 离 、 查 照 间 隔 ) 

钢轨 接头 轨 面 、 内 侧 错 牙 、 轨 端 飞 边 、 轨 缝 ) 

轨 枕 〈 碎 石 道 床 轨 接 头 岔 枕 、 整 体 道 床 轨 枕 玻璃 钢 套 管 ? 

联接 零件 〈 尖 轨 、 可 动心 轨 与 滑 床 板 间 缝 ， 弹 条 中 部 前 端 下 闫 离 颖 7 
轨道 加 强 设备 〈 转 边 、 略 又 部 分 轨 撑 离 缝 ， 息 行 量 ) 


J 


He 


“ 徐 老师 ， 有 了 这 些 数据 就 可 以 进行 数据 挖掘 了 吧 。” 高 局 长 问 道 。 


徐 教授 回答 道 : “是 的 。 对 轨道 的 轨 距 、 方向、 高 低 、 水 平 以 及 曲线 超 高 、 曲 率 、 
车 体 的 水 平 振动 加 速度 、 车 体 垂直 振动 加 速度 等 历史 数据 进行 清洗 、 归 一 化 处 理 后 ， 
通过 回归 等 数据 挖掘 手段 建立 轨道 状态 检测 模型 。 根 据 德 国 高 速 铁 路 的 实践 经 验 , 直 
接 影 响 及 控制 行车 速度 的 主要 因素 有 两 个 : 一 是 轨道 线路 平 纵 断 面 ， 另 一 个 是 轨道 线 
路 的 平顺 性 。 所 以 在 建立 轨道 状态 检修 模型 时 ， 着 重 选 取 对 线路 平 纵 断 面 和 平顺 性 的 
指标 ， 如 横向 震动 加 速度 、 轨 向 、 高 低 等 数据 。” 


高 局 长 更 具体 地 问 道 ， “应 用 数据 挖掘 技术 ， 还 能 够 建立 哪些 回归 模型 ? ” 


徐 教授 继续 回答 道 : “主要 是 分 析 和 研究 轨道 的 动力 学 特性 : (1) 高 速 铁路 轨 
道 在 动 荷载 作用 下 的 特性 和 规律 (2) 轮 轨 接 触 不 平顺 作用 下 的 垂 向 受 力 与 变形 关 
系 ; (3) 高 速 动 载 作 用 下 刚度 与 阻尼 对 轨道 性 能 的 关系 ; 〈4) 高 速 动 载 作 用 下 列车 
临界 速度 和 路 基 状 况 对 无 帮 轨 道 性 能 的 影响 等 。” 


高 局 长 进一步 问 道 : “ 徐 老师 ， 这 些 回归 模型 确定 后 ， 怎 么 应 用 呢 ?”” 


徐 教授 解释 道 ， “有 了 这 些 模型 ， 再 利用 可 视 化 技术 可 以 监测 轨道 状况 。 比 如 ， 
对 轨道 部 件 状态 可 以 全 面 监 测 ， 如 扣 件 脱落 、 螺 栓 松动 、 鱼 尾 板 断 裂 、 钢 轨 麻 耗 、 道 
床 路 基 水 浸 、 韧 落 等 异常 状况 。” 

高 局 长 似乎 还 不 放心 ， 又 问 道 : “ 徐 老师 ， 利 用 数据 挖掘 进行 轨道 检测 ， 有 没有 
实际 的 应 用 ? ” 


-= 


徐 教授 肯定 地 回答 : “ 某 高 铁 公司 在 2005 年 向 美国 ENSCO 公司 定购 的 大 型 轨 
道 检 查 车 ， 通 过 建立 的 模型 ， 将 各 种 大 型 检测 机 械 的 检测 数据 代入 后 ， 真 实地 反映 轨 
道 的 实际 状况 ， 在 正 挂 、 反 挂 、 顺 跑 、 逆 跑 都 不 会 产生 方向 性 问题 。” 


华润 的 万 总 更 关注 策略 的 落地 ， 问 道 : “这 个 轨道 状态 检测 模型 能 不 能 直接 指导 
工作 人 员 的 具体 操作 呢 ? ” 


徐 教授 解释 说 : “以 法 国 高 速 铁路 为 例 ， 它 通过 车 体 振动 加 速度 和 转向 架 振 动 加 
速度 来 评价 轨道 质量 状态 。 其 轨道 状态 检测 模型 最 终 按 轨道 的 质量 状态 分 为 四 级 ; 


轨道 质量 状态 ” 对 应 质量 状态 描述 

目标 值 (VO) ”新 线 铺 设 、 维 修 作业 后 应 达到 的 质量 标准 

警告 值 (VA)〉 ”达到 或 超过 此 值 的 轨道 不 平顺 ， 要 实施 重点 观测 ， 分 析 其 发 展 变 化 情况 并 做 出 
维修 计划 

二 预 值 (VI) 达到 或 超过 此 值 的 地 点 或 区 段 要 实施 必要 的 维修 作业 ， 一 般 在 15 天 之 内 予以 实 
施 ， 并 使 其 达到 目标 值 

限 速 值 (VR，〉 ”达到 或 超过 该 值 的 地 点 或 区 段 列车 必须 降 速 行驶 ， 并 以 任何 可 能 的 手段 包括 手 
工作 业 予 以 整治 


有 了 轨道 质量 状态 的 评价 和 控制 ， 业 务 人 员 就 可 以 很 方便 地 按照 指示 完成 任务 
可 

高 局 长 总 结 道 : “轨道 检修 的 目的 就 是 为 了 确保 高 铁 运营 的 安全 性 ， 尽 可 能 地 延 
长 车 辆 的 使 用 寿命 ， 从 而 降低 高 铁 的 运营 成 本 ， 提 高 效益 。 通 过 数据 挖掘 技术 研究 出 
的 轨道 养护 维修 模式 ， 可 以 帮助 我 们 更 好 地 理解 状态 检修 的 内 涵 ， 必 能 为 我 们 轨道 交 
通 养护 维修 提供 借鉴 、 指 导 。” 


P= 
4.3 ”交通 流量 预测 
“在 这 一 节 课 开始 之 前 ， 我 先 给 大 家 讲 一 个 笑话 。” 徐 教授 看 着 大 家 说 道 。 


“ 某 君 带 着 一 只 乌龟 ， 下 班 后 开车 回 家 ， 在 二 环 路 上 遭遇 堵车 。 看 汽车 半天 走 不 
了 几 步 ， 乌 龟 耐 不 住 性 子 ， 坚 持 要 先 疏 回 家 去 ， 主 人 只 好 由 它 去 了 。 不 知 过 了 多 久 ， 
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主人 在 车 里 听见 敲 门 声 ， 打 开 一 看 ， 只 见 乌 龟 满 头 冒 汗 ， 气 鼓 鼓 地 说 : “你 忘 了 给 我 
家 门 钥匙 .……: 


大 家 联系 起 自己 堵车 的 经 历 ， 都 忍 不 住 笑 了 。 


徐 教授 示意 大 家 静 一 静 ， 接 着 说 : “今天 这 节 课 的 主题 就 是 运用 数据 挖掘 技术 进 
行 交通 流 的 预测 ， 为 交通 调度 策略 制定 、 道 路 建设 和 改造 提供 决策 支持 ， 从 而 避免 堵 
车 发 生 或 者 减少 堵车 时 间 。” 

徐 教授 招手 让 坐 在 最 后 一 排 穿 制 服 的 交警 到 前 排 来， 并 介绍 说 : “这 位 是 我 们 学 
校 隔壁 交警 一 大 队 的 刘 队 长 ， 他 听 说 我 们 今天 要 讲 交 通 流量 预测 ， 特 意 前 来 听课 。 首 
先 由 刘 队 长 给 大 家 介绍 一 下 交通 流 预 测 问题 及 其 现状 。” 

刘 队 长 迈 着 正规 的 步伐 走 上 讲台 ， 给 大 家 行 了 个 警 礼 后 ， 开 始 讲 到 : “大 家 好 ! 
很 荣幸 有 机 会 和 大 家 一 起 聆听 徐 教授 的 数据 挖掘 在 交通 流 预测 中 的 应 用 这 节 课 。” 


= 


停 了 几 十 秒 钟 , 刘 队 长 接着 说 : “道路 交通 系统 是 一 个 有 人 参与 的 、 时 时 变化 的 、 
复杂 的 非 线 性 系统 ， 交 通 流量 除了 受 一 些 周期 性 的 因素 如 节假日 、 季 节 影 响 之 外 ， 还 
具有 很 多 不 确定 因素 ， 如 路 面 状况 、 天 气 变化 、 突 发 事件 等 ， 这 些 因素 都 给 交通 流量 
预测 带 来 了 一 定 的 难度 ， 特 别 是 短 时 交通 流量 预测 更 加 困难 。” 

说 到 这 儿 ， 刘 队长 熟练 地 将 徐 教授 的 笔记 本 电脑 以 自己 的 3G 智能 手机 为 路 由 连 
上 了 Internet， 然 后 进入 到 交警 的 城市 交通 指挥 网 。 几 个 十 字 路 口 川流不息 的 景象 展 
现在 投影 屏幕 上 。 


刘 队 长 指 着 屏幕 说 道 : “现在 ， 我 们 每 时 每 刻 都 可 以 通过 智能 交通 控制 系统 
SCOOT 获取 大 量 的 交通 信息 ， 如 来 自分 布 于 主要 交通 路 口 和 干道 的 360 多 个 摄像 机 
的 视频 信息 ， 来 自 1300 多 个 传感器 数据 、 道 路 占有 信息 、 来 自 车 辆 定位 系统 的 行程 
时 间 、 平 均 速 度 等 信息 ， 每 个 月 所 产生 的 数据 量 达到 上 百 GB。” 
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徐 教授 趁机 说 道 : “好 啊 ,， 有 了 大 量 的 实时 数据 ， 我 们 就 可 以 利用 数据 挖掘 进行 
交通 流量 预测 了 ! ” 


刘 队 长 想起 了 半年 前 他 与 徐 教授 所 讨论 的 问题 ， 说 : “ 徐 教 授 ， 就 像 您 曾经 给 我 
们 分 析 过 那样 , 交通 流 具 有 不 同 的 空间 分 布 模式 , 例如 城市 主干 道 的 交通 流 具 有 “ 线 ” 
性 模式 ， 交 叉 路 口 的 交通 流 具 有 “平面 ”模式 等 ， 对 城市 道路 交通 网 络 进行 实时 、 动 
态 的 交通 区 域 划分 是 当前 智能 交通 系统 的 研究 难点 之 一 。” 


徐 教授 回应 说 : “对 于 这 一 问题 ， 利 用 聚 类 分 析 方 法 ， 对 分 布 在 道路 网 络 空间 中 
的 、 环 形 感应 线圈 检测 器 检测 到 的 交通 流 数据 进行 空间 聚 类 分 析 ， 使 具有 相似 性 质 且 
具有 空间 关联 性 的 交通 流 数据 对 象 聚 成 一 类 ， 可 以 发 现 道路 交通 流 的 空间 分 布 模式 。 
比如 ， 通 过 基于 凝聚 的 层次 聚 类 算法 思想 ， 设 计 高 效 的 交通 流 空间 聚 类 算法 ， 自 底 向 
上 生成 道路 交通 流 的 空间 聚集 类 。” 


“ 那 如 何 有 效 地 对 交通 流量 进行 预测 呢 ? ” 刘 队 长 问 道 。 


“在 空间 聚 类 的 基础 上 ,我们 利用 流量 序列 相关 性 来 预测 交通 流量 ， 用 基于 神经 
网 络 方法 实现 道路 交通 流 状 态 的 预测 。” 徐 教授 说 。 


“能 够 进行 有 效 地 交通 流 预 测 后 ， 我 们 的 智能 交通 系统 如 何 建立 呢 ? ” 刘 队 长 
又 问 。 


徐 教授 解释 说 : “智能 交通 数据 挖掘 应 用 平台 主要 划分 为 四 层 : 数据 层 、 数 据 挖 
掘 算法 工具 层 、 分 析 罗 辑 层 和 应 用 系统 层 。 其 中 分 析 轴 辑 部 分 , 以 交通 流量 预测 为 例 ， 
包括 交通 流 序 列 相关 性 分 析 、 交 通 流 序列 分 割 等 分 析 模 型 。 四 层 体 系 结构 以 数据 挖掘 
算法 工具 为 核心 ， 在 数据 挖掘 算法 工具 层 和 数据 挖掘 应 用 系统 层 之 间 增 加 分 析 届 辑 
层 。 在 分 析 则 辑 层 抽取 特定 分 析 所 需要 的 分 析 模 型 ， 并 映射 到 合适 的 数据 挖掘 算法 和 
分 析 流 程 。 做 到 数据 挖掘 技术 与 具体 应 用 紧密 结合 。” 
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数据 挖 所 


决 


交通 任务 数据 
挖掘 模型 库 


卫 辣 尘 洲 班 岂 凶 叶 如 一 


交通 信息 数据 
挖掘 算法 集 


型 分 析 管 理 
领域 专家 ) 


一 其 


“那么 在 此 基础 上 如 何 构建 智能 交通 系统 呢 ? ” 刘 队 长 又 问 道 。 


“由 于 课堂 时 间 有 限 ,我 只 给 大 家 简单 介绍 下 智能 交通 系统 的 基本 框架 结构 ， 请 
大 家 看 大 屏幕 1 ” 


徐 教授 走 上 讲台 ， 拿 起 激光 笔 指 着 屏幕 介绍 说 : “智能 交通 系统 的 体系 结构 分 为 
四 个 部 分 ， 分 别 是 交通 信息 数据 仓库 、 智 能 交通 数据 挖掘 任务 分 析 管理 及 算法 、 交 通 
任务 数据 挖掘 模型 库 及 与 智能 交通 系统 的 应 用 接口 。 智 能 交通 系统 的 体系 结构 实现 了 
交通 流量 的 短 时 预测 以 及 前 期 数据 清洗 、 交 通道 路 状态 判别 、 交 通 事故 数据 的 关联 分 
析 等 交通 领域 内 基本 的 数据 挖掘 需求 。” 

“ 哦 ， 原 来 是 这 样 。 有 了 智能 交通 系统 我 们 就 可 以 有 效 预 测 某 时 刻 或 者 某 时 间 
段 的 交通 流量 ， 指 导 调 度 计 划 ， 同 时 也 可 以 指导 交通 线路 的 改善 、 改 建 。” 刘 队长 
感慨 道 。 


此 时 ， 下 课 铃声 响起 ， 徐 教授 说 道 : “感谢 刘 队 长 的 配合 ， 今 天 的 课程 就 到 此 结 
束 。” 
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大 家 陆 陆 续 续 走 进 教室 ， 发 现 徐 教 授 坐 在 讲台 上 熟悉 教案 。 学 员 们 赶快 打开 笔 
记 本 ， 做 好 上 课 的 准备 ， 不 再 像 以 前 那样 塞 蛤 一 阵 。 

上 课 铃声 过 后 ， 徐 教授 微笑 着 环视 了 一 下 教室 ， 看 到 大 家 都 到 齐 了 ， 说 : “大 
家 好 ! 今天 我 们 要 讨论 的 内 容 是 数据 挖 气 在 冶金 行业 的 应 用 。 人 所 共 知 ， 冶 金 生产 
属于 流程 工业 。 李 部 长 ， 你 就 先 介 绍 一 下 什么 是 流程 工业 吧 .…*…” 


5.1 流程 工业 这 点 儿 事 


李 部 长 在 T 钢 铁 公司 干 了 近 二 十 年 了 ， 提 起 他 的 老 本 行 ， 有 说 不 完 的 话 。 

他 走 上 讲台 : “流程 工业 是 指 生产 连续 不 间断 或 半 连 续 批量 生产 的 工业 过 程 ， 如 
炼油 、 化 工 、 电 力 、 冶 金 、 造 纸 等 行业 ， 其 共同 特点 是 工艺 流程 基本 不 变 ,但 生产 周 
期 长 ， 生 产 过 程 复杂 ， 工 艺 参 数 特别 多 。” 


“ 那 我 国 流程 工业 的 现状 如 何 ? ” 徐 教授 引导 着 李 部 长 的 话题 。 


李 部 长 意味 深长 地 说 : “前 些 年 ， 我 国 流程 工业 企业 普遍 存在 着 能 耗 大 、 产 品质 
量 差 、 生 产 工艺 落后 、 自 动 化 及 操作 水 平 低 等 问题 。 近 十 年 来 ， 通 过 不 断 引 进 、 消 化 
吸收 国外 的 先进 生产 线 ， 研 制 具有 独立 知识 产权 的 生产 设备 ， 情 况 有 了 极 大 的 改观 。 
比如 我 们 公司 年 生产 规模 由 原来 的 200 万 吨 上 升 到 1050 万 吨 的 主要 原因 是 我 们 引进 了 
清一色 的 德国 装备 。 德 国 装备 是 全 世界 上 最 先进 的 ， 自 动 化 程度 相当 高 。 我 们 实现 了 
真正 的 “数字 化 ”钢铁 。” 

“引进 、 消 化 、 吸 收 、 再 创新 ， 这 是 每 一 个 国家 发 展 的 必由之路 。 只 是 我 们 有 中 
国 特色 的 速度 ， 比 别人 跑 得 快 而 已 。 快 当然 是 好 事 ， 但 可 能 “消化 不 良 ”。” 徐 教授 
继续 引导 话题 。 

“确实 ， 大 部 分 公司 与 我 们 一 样 ， 存 在 着 对 先进 设备 驾驭 能 力 不 足 的 问题 。” 李 
部 长 如 实说 。 

“ 李 部 长 ， 你 不 是 说 你 们 引进 的 全 是 世界 顶级 的 洋 玩意 儿 ， 那 么 操作 人 员 只 需 按 
按 电 钮 、 逆 敲 键盘 就 行 了 ， 还 有 什么 困难 的 事情 ? ”税务 局 姚 局 长 调侃 道 。 

一 向 冷静 的 李 部 长 情绪 有 点 激动 了 : “此 言 差 侨 ， 姚 局 长 ! 税务 管理 你 内 行 ， 但 
隔行 如 隔山 呐 ! 你 有 所 不 知 , 流程 工业 有 了 最 先进 的 生产 设备 也 只 具备 80% 的 生产 能 
力 , 另外 20% 就 是 使 用 设备 的 软 实 力 。 这 20% 才 是 使 竞争 利于 不 败 之 地 的 关键 , 它 比 
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那 80% 更 重要 。 因 为 80%， 你 有 ， 我 有 ， 他 也 有 。 而 这 20%， 却 不 是 谁 者 可 以 花 钱 
买 来 的 。” 


看 到 李 部 长 的 话 落 到 了 自己 摆 的 “龙门 阵 ”， 徐 教授 顺水 推 舟 : “好 了 ， 李 部 长 ， 
你 还 是 具体 给 大 家 介绍 一 下 20% 的 软 实力 吧 。?” 


李 部 长 来 劲 了 ， 大 声 说 : “同样 的 先进 设备 ， 我 们 的 能 耗 为 什么 比 国外 优秀 企业 
高 出 3% 一 8%? 我 们 的 炉 温 命中 率 为 什么 比 别人 低 2 一 5 个 百分点 ? 我 们 的 板材 侧 翻 
为 什么 比 韩 国 宽 2 一 5 毫米 ? 我 们 的 不 锈 钢 成 本 平均 每 吨 比 日 本 高 出 20 多 美元 ? 我 们 
的 钢材 夹杂 、 重 皮 为 何 比 欧美 国家 的 钢铁 企业 严重 ? ” 


李 部 长 控 了 一 下 脸 上 的 汗水 ， 继 续 说 道 : “同志 们 ， 听 到 这 些 ， 你 们 肯定 与 我 一 
样 急 呀 ! 发 达 国 家 能 够 充分 发 挥 “ 数 字 钢铁 ”系统 的 作用 。 应 用 数据 挖掘 技术 ， 对 生 
产 过 程 不 断 优化 ， 使 数据 变 成 了 黄 灿 灿 的 “金子 ”。 而 我 们 的 数据 每 天 以 3GB 的 速 
率 增加 ， 可 这 些 数据 却 身 在 昂贵 的 信息 化 系统 里 面 睡觉 ! ” 


R 钢铁 公司 的 何 总 也 深 有 同感 : “ 李 部 长 说 得 中 肯 ， 差 距 就 在 这 里 ， 有 了 先进 的 
设备 ， 还 需要 结合 生产 的 实际 情况 不 断 地 优化 工艺 过 程 ! ” 


徐 教授 由 前 排 回 到 了 讲台 ， 说 道 : “流程 工业 的 生产 过 程 优化 问题 按时 期 可 分 为 
两 大 类 ， 一 类 是 产品 设计 时 的 优化 ， 工 艺 流程 、 生 产 操作 条 件 根据 需要 都 可 以 调整 ， 
但 确定 之 后 一 般 不 作 修正 。 另 一 类 是 运行 中 的 优化 ， 此 时 工艺 及 设备 因素 均 已 确定 ， 
只 有 操作 条 件 可 以 变动 。 当 环境 条 件 变 量变 动 时 ， 运 行 变 量 就 需要 及 时 作 相 应 的 调 
整 。” 


徐 教授 环视 了 一 下 教室 ， 发 现 大 家 有 点 迷惑 ， 接 着 解释 说 : “一 般 而 言 ， 生 产 装 
置 的 操作 条 件 在 设计 时 已 按 设 计 指标 优化 并 定义 为 标准 操作 参数 ， 如 原料 配 比 ， 过 程 
单元 设备 的 工作 参数 等 。 但 在 生产 过 程 中 ， 由 于 原料 成 份 、 参 数 命 中 率 的 波动 、 设 备 
老化 等 工 况 条 件 的 改变 等 ， 设 计 阶 段 定义 的 操作 参数 往往 不 能 达到 期 望 的 效果 。” 


“ 那 操 作 优化 能 带 来 什么 好 处 呢 ? ”有 人 问 道 。 
徐 教授 解释 道 : “操作 优化 的 目的 是 在 现 有 工艺 及 设备 条 件 下 ， 通 过 调整 可 控 变 
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量 ， 使 生产 过 程 处 于 最 优 工 况 邻 域 ， 从 而 提升 质量 指标 、 提 高 产量 、 降 低能 耗 。” 
R 钢铁 公司 的 何 总 问 道 : “ 那 需要 从 哪些 方面 进行 生产 过 程 的 优化 呢 ? ” 


徐 教授 回答 道 : “流程 工业 是 多 工序 的 复杂 生产 过 程 ， 可 以 利用 数据 挖掘 技术 进 
行 生产 优化 的 地 方 很 多 ， 归 纳 起 来 大 致 分 为 以 下 几 个 方面 。” 


生产 过 程 优 化 


(1) 新 产品 设计 的 优化 
(2) 产品 质量 优化 
(3) 生产 成 本 优 


2 


数据 挖掘 技术 及 其 应 用 


“ 徐 教授 ， 您 先 给 我 们 讲 讲 如 何 进行 新 产品 设计 的 优化 ? ”电力 公司 的 刘 经 理 请 
求 说 。 

“新 产品 开发 是 现代 企业 竞争 的 重要 体现 。 新 品 试制 通常 需要 作 大 量 实验 。 如 能 
缩短 新 产品 的 研制 周期 ， 就 能 为 企业 带 来 较 大 的 经 济 效益 。 通 过 在 实验 过 程 中 收集 的 
数据 ， 利 用 数据 挖掘 方法 建立 数学 模型 ， 能 够 较 快 地 达到 研制 目标 ， 使 新 产品 更 快 地 
投产 。” 徐 教授 在 讲台 上 一 边 践 步 一 边 说 道 。 
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“ 徐 老师 ， 产 品质 量 历来 是 企业 永恒 的 主题 ， 怎 样 进行 产品 质量 优化 呢 ? ”及 钢 
铁 公司 的 何 总 也 问 道 。 


徐 教授 扭头 转向 何 总 ， 亲 切 地 回答 道 : “如 果 能 在 产品 产 出 之 前 ， 通 过 一 定 方法 
根据 生产 参数 估计 出 产品 质量 指标 ， 我 们 就 可 以 调整 输入 参数 ， 保 证 生产 输出 指标 控 
制 在 目标 范围 内 ， 最 终 就 可 以 少 出 废品 。 利 用 生产 过 程 积累 的 数据 ， 通 过 机 器 学 习 方 
法 建立 产品 质量 指标 和 其 影响 因素 之 间 的 函数 关系 ， 以 及 研究 如 何 调整 这 些 参 数 ， 从 
而 可 以 提高 产品 质量 。” 


徐 教授 扫 视 了 一 圈 台 下 的 学 员 ， 喝 了 口水 继续 讲 道 : “产品 质量 和 信誉 是 现代 企 
业 的 生命 线 ， 许 多 产品 的 质量 问题 要 在 长 期 使 用 中 才能 显露 出 来 。 为 了 保证 产品 质量 
的 可 靠 性 ， 必 须 把 好 产品 检验 关 。 如 何 能 从 短期 测量 察觉 产品 的 长 期 性 能 ? 这 也 需要 
通过 数据 处 理 ， 找 出 短期 测试 指标 和 长 期 使 用 特性 的 关联 ， 建 立 数 学 模型 ， 使 产品 检 
验 更 加 有 效 。” 


“生产 成 本 是 企业 立 于 不 败 之 地 的 关键 。 徐 老师 ， 利 用 数据 挖掘 技术 ， 怎 样 优化 
生产 成 本 ? ” 李 部 长 也 提出 了 一 个 问题 。 


徐 教授 回答 道 : “大 家 知道 ， 生产 成 本 包括 原料 成 本 、 能 源 成 本 、 材 料 消耗 成 本 、 
人 力 成 本 和 其 他 制造 费用 。 通 过 长 期 积累 的 生产 数据 ， 可 以 学 习 出 单位 产品 与 这 些 成 
本 项 的 关系 ， 发现 低 成 本 的 生产 模式 ， 从 而 找 出 降低 成 本 的 突破 口 。 另 外 ， 通 过 回归 
和 分 类 方法 建立 的 产品 质量 指标 与 工艺 参数 的 关系 模型 也 可 以 找到 降低 原 、 燃料 消耗 
的 方法 。 生 产 过 程 难免 出 现 故障 ， 利 用 以 往 数 据 ， 建 立 预警 模型 和 故障 诊断 模型 ， 能 
及 时 正确 诊断 其 原因 ， 从 而 快速 消除 故障 ， 尽 快 恢复 生产 ， 也 可 以 在 一 定 程度 上 减少 
成 本 。” 


“ 徐 老师 ， 听 了 您 的 讲解 ， 我 觉得 流程 工业 可 以 应 用 数据 挖掘 技术 的 地 方 真 是 
太 多 了 ， 您 给 我 们 介绍 哪些 方面 得 到 应 用 呢 ? ”有 人 问 。 


“大 家 请 看 大 屏幕 ! ” 徐 教授 说 。 
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(1) 产品 质量 的 有 效 控制 
(2) 高 炉 炉 温 预测 
(3) 磨 矿 粒 度 预测 
(4) 炼焦 配 煤 优化 


数据 挖掘 技术 及 其 应 用 


“这 节 课 的 目的 就 是 让 大 家 对 流程 工业 的 数据 挖掘 应 用 有 个 总 体 的 认识 , 下 面 几 
节 课 我 们 将 探讨 几 个 具体 的 数据 挖掘 应 用 问题 。OK， 今 天 的 课 到 此 结束 。” 


5.2 ”产品 质量 控制 


徐 教授 走 上 讲台 ， 直 奔 主题 “这 节 课 ， 我 们 一 起 探讨 数据 挖掘 技术 在 产品 质量 
控制 中 的 应 用 。” 

他 打开 笔记 本 电脑 ， 继 续 讲 道 : “激烈 的 国际 市 场 竞争 不 断 地 向 产品 质量 、 新 产 
品 设计 、 产 品 成 本 和 交 货 期 等 方面 提出 新 的 挑战 。 如 何 提高 产品 质量 ， 使 企业 具备 自 
己 的 竞争 优势 ， 已 经 成 为 企业 的 新 挑战 。 随 着 流程 工业 自动 化 、 数 字 化 水 平 的 不 断 提 
高 , 数据 越 来 越 丰富 , 这 就 为 应 用 数据 挖掘 技术 进行 产品 质量 控制 提供 了 良好 契机 。” 
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“这 下 我 们 数字 化 钢铁 系统 中 的 数据 可 有 用 武之 地 了 ! ”R 钢铁 公司 的 何 总 激动 
地 说 。 

李 部 长 的 思维 再 次 超前 了 一 步 ， 他 说 : “ 徐 老师 ， 记 得 您 曾经 说 过 ， 流 程 工业 的 
产品 质量 控制 问题 大 都 可 归结 为 机 器 学 习 范畴 的 分 类 问题 和 回归 问题 , 对 吧 ? ” 


徐 教授 说 道 “是 的 ， 流 程 工业 生产 是 多 工序 生产 ， 各 个 工序 都 有 影响 产品 质量 
的 因素 。 如 影响 钢材 表面 质量 的 因素 有 : 元 素 成 份 含量 、 铸 坏 的 厚度 及 宽度 、 控 制 温 
度 、 铸 坏 拉 速 、 时 间 等 。 一 般 把 这 些 影 响 因素 称 为 输入 变量 ， 衡 量 产品 质量 的 指标 称 
为 输出 变量 。 输出 变量 可 分 为 两 类 : 一 类 是 离散 型 输出 变量 , 如 板材 表面 是 否 有 夹杂 、 
重 皮 ， 纵 条 纹 的 等 级 等 ， 可 用 0、1、2 等 整数 值 表 示 ; 另 一 类 是 连续 性 输出 变量 ， 如 
钢材 的 抗 拉 强 度 、 延 伸 率 、 不 锈 钢 边缘 的 侧 翻 等 。 根 据 输出 变量 的 类 型 ， 前 者 可 归结 
为 分 类 问题 ， 后 者 是 回归 问题 。” 


听 到 这 里 , 李 部 长 回忆 起 徐 教授 在 他 们 公司 做 讲座 时 对 产品 质量 控制 问题 的 一 段 
概括 ， 脱 口 而 出 : “流程 工业 的 产品 质量 控制 问题 可 描述 为 : 假定 生产 过 程 P 的 产品 
质量 指标 y 有 p 个 影响 因素 y= (x1，x2，…，xp) ， 根 据 对 产品 质量 的 影响 因素 和 
产品 质量 指标 的 测量 数据 ， 推 断 其 函数 关系 y-f (x，B) ， 这 里 B 为 待定 参数 。 然 后 
根据 所 得 到 的 函数 , 对 新 的 工 况 参数 , 推断 其 对 应 的 质量 指标 , 这 就 是 产品 质量 预测 。 
反之 ,根据 指定 产品 质量 目标 值 反 推 相 应 的 影响 因素 参数 值 ， 这 种 情况 ， 称 为 逆 质 量 
问题 。 对 产品 质量 预测 问题 和 产品 逆 质 量 问题 建立 的 模型 分 别称 为 产品 质量 模型 和 产 
品质 量 控制 模型 。” 


“ 李 部 长 的 记性 真 好 。 没 记 错 的 话 ， 这 是 3 年 前 我 讲 的 内 容 。” 徐 教授 赞扬 道 。 


这 时 ，S 钢铁 公司 的 赵 总 提 了 个 建议 : “这 些 都 很 抽象 ， 徐 老师 以 一 个 具体 的 质 
量 控制 实例 给 我 们 讲 讲 吧 。” 


“好 的 , 就 以 T 钢铁 公司 1549mm 热 连 轧 生产 线 板材 抗 拉 强度 和 延伸 率 质量 控制 
问题 为 例 吧 。” 其 实 徐 教授 时 有 准备 ， 答 应 道 。 
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“ 李 部 长 ， 你 对 这 个 问题 再 熟悉 不 过 了 ， 就 先 给 大 家 介绍 介绍 情况 。” 说 着 ， 徐 
教授 的 PPT 调 出 了 一 张 生产 流程 图 。 


卷 取 机 


7 道 次 


李 部 长 从 徐 教授 手 上 接 过 光 笔 ， 指 向 大 屏幕 说 道 : “企业 的 同志 可 能 有 同感 ， 市 
场 竞争 是 极其 残酷 的 。 我 们 的 板材 成 本 老 是 比 国 外 同行 “ 略 高 一 筹 ”， 致 使 我 们 在 国 
际 竞 标 中 屡屡 失败 。 为 什么 呢 ? 董事 长 多 次 召集 大 家 研究 对 策 ， 分 析 认 为 我 们 的 设备 
并 不 比 人 家 差 ， 原 料 来 源 与 竞争 对 手 也 没有 什么 区 别 。” 


说 到 这 里 ， 李 部 长 一 脸 无 奈 的 样子 。 


“知己 知 彼 ， 百 战 不 列 。 有 一 天 ， 陈 董事 长 让 我 把 竞争 对 手 的 产品 一 一 进行 物理 
性 能 测试 。 结 果 令 人 大 跌眼镜 ， 国 外 产品 的 两 个 主要 性 能 指标 抗 拉 强 度 和 延伸 率 竞 然 
比 我 们 的 应 标 产 品 低 了 不 少 。” 李 部 长 继续 道 。 


“手下 败 将 ,不 服输 ， 还 自 吹 自 播 ! ”S 钢铁 公司 的 赵 总 与 及 钢铁 公司 的 何 总 互 
相 “ 咬 耳 条 ”。 
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“ 当 我 把 测试 结果 呈现 给 陈 董事 长 时 ， 他 眼睛 一 亮 ， 桌 子 一 拍 : “原来 如 此 !，” 
李 部 长 像 讲 故事 一 样 表 情 投入 。 


“我 先是 一 惕 ， 瞬 间 也 就 明白 了 。” 李 部 长 脸 上 露出 了 笑容 。 

“明白 什么 了 ? ”税务 局 姚 局 长 等 不 知 所 云 。 

“这 个 问题 我 不 告诉 你 。” 李 部 长 风趣 地 引用 了 一 句 广告 语 。 

其 实 S 钢铁 公司 的 赵 总 和 及 钢铁 公司 的 何 总 等 生产 企业 的 学 员 也 都 明白 了 。 


“ 陈 董事 长 让 我 立即 召开 技术 研讨 会 ， 拿 出 对 策 。 会 上 ， 我 分 析 道 : “在 满足 用 
户 需求 的 情况 下 ， 降 低 抗 拉 强度 和 延伸 率 必 然 会 降低 产品 成 本 ， 当 然 会 赢得 降价 空 
间 。”” 李 部 长 道 出 了 其 中 的 奥妙 。 


“现在 ， 我 们 的 目标 明确 了 。 首 先 ， 研 究 出 抗 拉 强 度 和 延伸 率 与 诸 影响 因素 的 数 
量 关 系 ， 从 而 按 用 户 要 求 的 质量 指标 ,在 尽量 降低 生产 成 本 的 情况 下 确定 最 优 的 工艺 
参数 。” 李 部 长 进一步 说 。 


这 时 ， 徐 教授 走 上 讲台 ， 接 着 李 部 长 的 话 茬 讲 到 : “ 热 连 轧 生 产 工艺 流程 包括 加 
热 炉 、 粗 除 鲜 、5 道 次 初 轧 、 精 除 鳞 、7 道 次 精 轧 、 层 流 冷却 和 卷 取 机 成 卷 儿 个 阶段 ， 
其 工艺 流程 如 图 所 示 。” 


徐 教授 在 屏幕 上 晃动 着 手中 的 光 笔 ， 继 续 说 道 ，“ 初 步 分 析 认为 ，PPT 中 所 示 
的 22 个 生产 变量 对 板材 的 抗 拉 强 度 和 延伸 率 有 直接 影响 .首先 我 们 需要 利用 生产 数 
据 建立 产品 质量 预测 模型 , 即 抗 拉 强 度 和 延伸 率 与 22 个 生产 变量 的 函数 关系 ,然后 ， 
应 用 所 建立 的 函数 关系 ， 由 用 后 对 质量 指标 的 具体 要 求 反 推 最 优 的 生产 变量 控制 参 
数 。” 
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板材 抗 拉 强度 、 延 伸 率 的 影响 因素 


” 连 铸 坯 的 化 学 成 分 C,Mn,5,Si,AI 
"5 个 粗 轧 变形 率 

”和 粗 轧 出 口 温 

”7 个 精 轧 变形 率 

” 粗 轧 出 口 温度 

” 卷 取 温度 
穿 带 速度 、 加 速度 
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S 钢铁 公司 的 赵 总 问 道 : “ 徐 老师 ， 在 这 个 问题 中 ， 建 立 产 品质 量 预 测 模型 和 逆 产 
品质 量 预测 模型 分 别 用 什么 数学 方法 ? ” 


徐 教授 回答 道 : “前 者 采用 LASSO， 即 Least Absolute Selection and Shrinkage 
Operator 模型 ， 后 者 使 用 遗传 算法 。” 

“ 徐 老师 ， 采 用 LASSO 模型 有 什么 优势 ? ”R 钢铁 公司 的 何 总 问 道 。 

徐 教授 回答 说 : “前 面 我 们 说 过 ， 我 们 初步 分 析 认 为 有 22 个 生产 变量 对 板材 的 
抗 拉 强 度 和 延伸 率 有 影响 ， 这 些 变量 可 能 有 元 余 ， 或 者 可 能 作用 很 小 。LASSO 模型 
可 以 在 回归 误差 尽 可 能 小 的 情况 下 剔除 元 余 变量 。” 

李 部 长 经 过 这 几 年 的 数据 挖掘 实践 , 对 模型 和 算法 已 经 比较 了 解 了 , 卖弄 道 :“ 常 
用 的 最 小 二 乘 、 支 撑 向 量 机 和 神经 网 络 等 可 没有 这 样 的 特点 。” 
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S 钢铁 公司 的 赵 总 问 道 : “模型 建立 之 后 ， 用 什么 方法 求解 呢 ? ” 

徐 教授 讲解 道 : “LASSO 模型 虽然 是 凸 优 化 问题 ， 但 由 于 使 用 的 1- 范 数 是 非 光 
滑 的 , 快速 求解 1- 范 数 正 则 化 模型 一 直 是 人 们 非常 关注 的 问题 , 人 们 提出 了 不 少 算法 ， 
对 比分 析 后 我 们 认为 选用 梯度 Boosting 算法 求解 。” 

听 完 徐 教授 的 话 ， 台 下 学 员 咬 咕 道 : “ 哦 ， 这 样 得 到 回归 模型 后 ， 任 意 给 出 一 组 
输入 参数 ， 都 可 以 预测 出 其 对 应 的 输出 值 了 。” 

徐 教授 接着 说 道 : “由 于 我 们 采用 了 线性 回归 模型 ， 所 以 回归 结果 的 可 解释 性 很 
强 。LASSO 质量 模型 的 预测 精度 高 ， 与 其 他 方法 相 比 ， 训 练 时 间 非 常 短 ， 而 且 预 测 
值 与 实际 值 的 相对 误差 很 低 。” 


抗 拉 强度 和 延伸 率 的 预测 结果 


和 
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R 钢铁 公司 的 何 总 问 道 : “建立 了 抗 拉 强 度 和 延伸 率 的 回归 模型 后 ， 用 什么 方法 
由 质量 指标 反 推 生产 工艺 参数 呢 ? ” 


徐 教授 说 ，“ 遗 传 算法 。” 


“遗传 算法 , 听 我 们 单位 的 研究 生 小 高 说 是 利用 达尔 文 进化 论 的 思想 构造 的 一 种 
求解 复杂 优化 问题 的 算法 。” 一 个 学 员 说 。 


“是 的 ， 物 竞 天 择 ， 适 者 生存 ， 这 是 自然 界 法 则 。” 徐 教授 解释 说 。 


“ 徐 老师 ， 遗 传 算法 挺 有 意思 ， 您 就 给 我 们 详细 讲解 一 下 吧 ? ”前 排 的 一 位 学 员 
请 求 道 。 

“课时 太 紧 ， 我 就 粗略 地 介绍 一 下 其 基本 过 程 吧 。 生 物种 群 必须 经 受 优胜 劣 汰 的 
选择 、 生 物 进化 需要 染色 体 的 交叉 和 变异 的 改良 ， 一 代 一 代 繁衍 不 息 ， 留 下 来 的 都 是 
精品 。 我 们 就 是 把 这 个 生物 进化 过 程 写成 算法 ， 就 是 遗传 算法 。” 徐 教授 解释 说 。 


台 下 一 个 学 员 激动 地 说 : “ 哦 ， 我 明白 了 ! 给 定 抗 拉 强度 和 延伸 率 的 目标 值 ， 给 
出 一 系列 的 生产 参数 ， 根 据 回 归 的 抗 拉 强度 和 延伸 率 模型 ， 计 算出 这 些 生产 参数 对 应 
的 回归 的 抗 拉 强度 和 延伸 率 。 留 下 误差 小 的 几 组 生产 参数 ， 去 掉 误 差 大 的 生产 参数 。 
然后 通过 生产 参数 向 量 的 交叉 和 变异 形成 一 些 新 的 生产 参数 ， 构 成 一 定 规模 的 新 种 
群 ,然后 再 重复 上 面 的 过 程 ， 直到 种 群 内 有 一 组 生产 参数 所 对 应 的 抗 拉 强 度 和 延伸 率 
与 期 望 的 目标 值 足够 接近 或 进化 出 了 一 定 的 代数 为 止 。” 

可 能 是 有 点 不 好 意思 ，S 钢铁 公司 的 赵 总 小 心 辟 翼 地 问 道 : “ 徐 教授 ， 热 连 轧 产 
品质 量 控制 的 过 程 我 都 听 明 白 了 ， 那 怎样 评价 模型 的 好 坏 ? ” 

徐 教授 解释 道 : “通常 以 命中 率 来 衡量 逆 质 量 控制 模型 的 优 劣 。 如 果菜 一 组 输入 
输入 对 应 的 输出 值 与 真实 值 的 相对 误差 小 于 5%， 模 型 在 这 一 组 输入 上 命中 ， 则 此 样 
本 点 称 为 模型 的 一 个 命中 点 。 命 中 点 总 数 占 总 样本 数目 的 百分比 称 为 模型 的 命中 率 。” 


S 钢铁 公司 的 赵 总 又 问 道 : “模型 的 命中 率 如 何 ? ” 
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徐 教授 说 : “在 逆向 质量 控制 时 ， 应 用 遗传 算法 建立 质量 控制 模型 ， 回 避 了 逆向 
质量 模型 的 存在 性 和 唯一 性 问题 ， 计 算 的 结果 达到 了 精度 要 求 。” 


数值 实验 结果 


" 抗 拉 强度 相对 误差 平均 值 : 0.0171 
。 延伸 率 相对 误差 平均 值 : 0.0463 

， 抗 拉 强 度 测试 命中 率 : 97.8% 
”延伸 率 测试 命中 率 : 89.6% 


数据 挖掘 技术 及 其 应 用 


5.3 ”高 炉 炉 温 预 测 


徐 教授 看 到 大 家 都 已 做 好 上 课 的 准备 ， 开 门 见 山 地 说 : “今天 我 们 来 一 起 探讨 数 
据 挖 掘 技术 在 高 炉 炉 温 控制 中 的 应 用 。” 


“ 赵 总 ， 听 李 部 长 说 ， 你 是 S 钢铁 公司 的 炼 铁 专家 ， 你 先 给 大 家 介绍 一 下 高 炉 炉 
温 控制 的 作用 吧 。” 
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赵 总 向 讲台 走 去 ， 毕 恭 毕 敬 地 说 道 : “前 天 徐 教授 就 给 我 布置 了 任务 ， 让 我 介绍 
高 炉 炉 温 预测 的 基本 知识 。 我 准备 了 一 下 ， 和 希望 对 大 家 有 所 帮助 。” 


“高 炉 是 横断 面 为 圆 形 的 炼 铁 竖 炉 , 其 主要 作用 是 用 化 学 和 物理 方法 减少 铁 的 氧 
化 物 含量 , 产 出 优质 铁水 。 随 着 计算 机 技术 的 发 展 , 大 规模 非 线性 数据 处 理 成 为 可 能 ， 
高 炉 炼 铁 从 最 初 追求 规模 效应 ， 逐 渐 走 向 强调 高 炉 的 长 期 稳定 、 顺 行 、 高 产 、 低 耗 。 
在 高 炉 炼 铁 过 程 中 ， 炉 温 是 高 炉 控制 最 为 重要 的 一 个 指标 ， 准 确 控制 炉 温 并 维持 炉 温 
的 稳定 对 高 炉 炼 铁 生产 具有 特别 重要 的 意义 。” 赵 总 概括 了 高 炉 炉 温 控制 的 目标 。 


赵 总 满 脸 是 汗 ， 补 充 了 点 水 分 ， 继 续 说 道 “由 于 生产 是 连续 进行 ， 炉 内 温度 很 
高 ， 很 难 直接 测量 得 到 。 而 硅 元 素 的 还 原 速率 受 炉 内 温度 与 热量 影响 的 灵敏 度 远 比 铁 
高 ， 因 此 通常 就 用 铁水 中 的 含 硅 量 来 代表 炉 温 。 硅 含量 越 高 ， 炉 温 愈 高 。” 


“通过 预测 高 炉 内 硅 含量 来 预测 炉 温 ， 妙 ， 实 在 是 妙 ! ”一 个 学 员 饶 有 兴趣 地 感 
慨 道 。 


“高 炉 炉 温 预测 有 其 特殊 性 ， 赵 总 ， 你 给 大 家 再 介绍 一 下 高 炉 冶炼 包含 哪些 控制 
参数 ， 以 便 我 们 选择 合适 的 数据 挖掘 技术 。” 徐 教授 说 道 。 

这 个 可 难 不 倒 名 副 其 实 的 炼 铁 专家 ， 他 滔滔 不 绝 ， “高 炉 炼 铁 包括 配料 、 上 料 、 
布料 、 鼓 风 、 富 氧 喷 煤 、 出 渣 、 出 铁 等 过 程 。 它 们 之 间 互 相 作 用 和 影响 ， 各 个 环节 的 
影响 参数 多 达 数 百 项 。 高 炉 体内 流体 存在 复杂 的 相 态 ， 煤 气 、 炉 料 、 渣 液 三 项 之 间 不 
断 进 行 着 动量 、 质 量 和 能 量 的 传递 和 转换 。” 

“小 小 的 高 炉 ， 内 部 真是 翻 江 倒 海 般 热闹 ， 看 来 对 其 进行 数据 建 模 那 是 相当 的 困 
难 。” 台 下 有 人 说 道 。 

赵 总 意味 深长 地 点 头 ， 回 应 说 : “是 的 ， 高炉 炼 铁 过 程 极其 复杂 。 在 冶炼 过 程 中 ， 
固体 下 落 同时 气体 要 上 升 ， 如 果 气 体 对 固体 的 阻力 太 大 ， 就 会 导致 悬 料 等 炉 况 事故 ， 
而 若 炉 内 化 学 反应 状态 不 均匀 ， 又 将 导致 衣料 等 炉 况 事故 。 总 之 ， 高 炉 治 炼 过 程 所 具 
有 的 时 变 、 高 维 、 多 频 、 分 布 参数 等 复杂 特性 和 封闭 条 件 下 的 操作 ， 都 使 得 参数 检测 
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非常 困难 。 最 终 导 致 高 炉 炉 温 的 建 模 和 控制 变 得 非常 困难 ， 成 为 治 金 自动 化 领域 的 技 
术 难 题 。” 

“难题 并 不 可 怕 ， 可 怕 的 是 不 能 与 时 俱 进 ， 抱 着 老 方法 不 放 ， 不 能 充分 发 挥 机 器 
学 习 研 究 的 新 成 果 。” 徐 教授 趁机 向 在 座 的 公司 领导 沿 警 示 钟 。 


赵 总 打开 了 他 的 PPT， 继 续 说 道 : “高 炉 生 产 过 程 是 一 个 非常 复杂 、 高 度 藉 合 的 
非 线性 过 程 。 高 炉 内 影响 铁水 硅 含量 的 因素 很 多 ， 大 体 上 分 为 两 大 类 : 状态 参数 和 控 
制 参数 。 状态 参数 是 指 反 映 高 炉 治 炼 过 程 状态 的 参数 , 同时 也 是 控制 参数 作用 的 结果 ， 
它们 无 法 像 控制 参数 那样 进行 实时 调整 。 大 家 请 看 影响 铁水 硅 含量 的 控制 参数 和 状态 
参数 。” 


台 下 半 歇 无 言 ， 良 入 ， 有 人 低 声 道 ， “这 么 多 参数 ， 都 看 曙 了 。” 


-= 


徐 教授 示意 赵 总 休息 休息 ， 走 上 讲台 回应 道 : “是 的 ， 影 响 高 炉 铁水 硅 含量 的 高 
炉 状 态 参数 和 控制 参数 很 多 。 在 建立 铁水 硅 含 量 预 报 模型 时 ， 将 其 全 部 都 作为 模型 的 
输入 变量 势必 会 增加 模型 的 复杂 度 ， 且 会 影响 实时 速度 。” 


“那么 我 们 如 何 来 选择 较为 重要 的 状态 参数 和 控制 参数 呢 ? ”有 R 钢铁 公司 的 何 总 
问 道 。 

“一 方面 利用 高 炉 操作 人 员 的 经 验 进行 选取 , 另 一 方面 通过 这 些 参 数 与 铁水 硅 含 
量 的 相关 性 进行 分 析 ， 选 择 相 关系 数 较 大 的 参数 。” 徐 教授 简明 扼要 地 回答 道 。 

及 钢铁 公司 的 何 总 道 出 了 硅 含 量 预 报 的 最 大 难点 : “由 于 高 炉 炼 铁 过 程 所 具有 的 
慢 时 变 特性 , 根据 历史 数据 得 到 的 铁水 硅 含 量 预报 模型 在 现场 运行 一 段 时 间 后 ,模型 
往往 会 失效 ， 有 什么 好 的 方法 解决 这 一 问题 ? ” 


P| 
划 孔 Erb 
G2 
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徐 教授 管道 ，“ 我 们 采用 增 量 式 支 撑 向 量 机 技术 进行 高 炉 铁水 硅 含量 的 在 线 建 
模 。” 


何 总 思 前 想 后 ， 自 觉 无 法 明白 个 中 玄机 ， 只 好 请 教 道 : “前 面 我 们 所 学 习 的 支撑 
向 量 机 与 增 量 式 支撑 向 量 机 有 什么 差别 ? ” 


徐 教授 和 颜 悦 色 ， 立 即 解释 说 : “ 增 量 学 习 是 指 在 原来 的 学 习 样 本 情况 下 ， 增 加 
新 样本 的 再 学 习 方法 。 这 种 学 习 方法 有 着 明显 的 优势 ， 一 方面 由 于 在 新 训练 过 程 中 ， 
充分 利用 历史 的 训练 结果 ， 从 而 显著 减少 了 后 继 训练 时 间 ， 同 时 对 于 高 炉 炼 铁 过 程 这 
类 渐变 问题 ， 新 样本 所 提 供 的 信息 与 历史 数据 所 提供 的 信息 量 是 不 同 的 ; 另 一 方面 增 
量 学 习 过 程 将 舍弃 无 用 的 样本 ， 无 需 保存 全 部 历史 数据 ， 减 少 对 存储 空间 的 占用 ， 可 
以 运用 于 在 线 学 习 中 。” 


何 总 穷 追 不 舍 ， 笑 睐 睐 地 道 ，“ 增 量 式 支 撑 向 量 机 学 习 具 体 怎么 训练 模型 呢 ?” 


徐 教授 扶 了 扶 眼 镜 ， 说 道 ， “SVM 增 量 学 习 基于 以 下 两 点 进行 ， 由 于 在 整个 训 
练 样本 集 得 到 的 训练 回归 函数 与 只 在 支撑 向 量 上 训练 的 结果 是 一 样 的 , 我 们 就 可 以 用 
相对 较 少 的 支撑 向 量 代表 整个 训练 集 ， 其 次 增 量 样本 中 如 果 属 于 非 支撑 向 量 集合 RR 
即 在 回归 间隔 线 之 内 的 点 ,将 其 加 入 工作 集中 ， 不 会 改变 训练 结果 ， 当 增 量 样本 不 在 
间隔 线 之 间 时 ， 则 将 改变 支撑 向 量 机 的 回归 函数 。” 


“原来 如 此 ， 明 白 了 ! ”R 钢铁 公司 的 何 总 摸 了 摸 脑袋 ， 悦 然 大 悟道 。 
而 大 部 分 学 员 感 到 疑惑 不 解 ， 茫 然 地 摇 摇 头 。 


接着 ， 徐 教授 解释 道 : “现在 高 炉 铁水 硅 含量 预报 模型 大 部 分 是 离线 建 模 ， 我 们 
采用 基于 增 量 型 支撑 向 量 机 高 炉 铁水 硅 含量 的 在 线 建 模 。 增 量 型 训练 过 程 中 ,可 以 在 
高 炉 铁水 硅 含 量 预报 模型 中 不 断 增加 能 够 代表 新 工 况 信息 的 样本 , 同时 控制 工作 样本 
集 的 规模 。 它 真正 实现 了 在 线 预 测 ， 而 且 预 测 精 度 远 远 高 于 离线 模型 。 请 看 增 量 式 文 
撑 向 量 机 高 炉 铁水 硅 含量 的 在 线 建 模 效果 。” 


= 


一 * 一 真实 值 


上 上 1 J 
50 100 150 200 250 
炉 /次 


5.4 ” 磨 矿 粒度 预测 


-上 课 , 徐 教授 便 问 道 :“ 我 国 采矿 最 早 可 以 追溯 到 石器 时 代 对 石器 材料 的 选取 。 
后 来 ， 随 着 冶金 业 的 兴起 ， 采矿 和 选矿 技术 也 逐渐 发 展 起 来 。 在 采矿 的 过 程 中 ， 需 要 
使 用 哪些 技术 ? ” 


冶金 业内 的 茧 总 抓 了 抓 头皮 回答 道 : “这 个 得 看 矿 体 埋 的 深浅 程度 ， 那 种 比较 浅 
的 “草皮 矿 ” 或 “ 鸡 富矿 ”， 只 要 通过 露天 开采 技术 ， 把 表土 或 薄 层 岩层 剥 除 ， 据 下 
数 尺 就 可 得 矿 。 那 种 比较 深 的 ， 需 要 用 到 立 井 开采 技术 。” 

犹 驳 了 几 秒 钟 ， 台 下 另外 一 个 学 员 补 充 道 : “碰见 岩石 类 的 ， 会 使 用 岩石 破碎 方 
法 ， 主 要 有 工具 破碎 和 火爆 破碎 两 种 方法 。 开 羡 坑 道 时 ， 可 用 工具 破碎 岩石 ， 或 者 火 
加 热 岩石 ， 使 岩石 内 部 结构 受到 破坏 。” 

铁路 局 的 高 局 长 忽然 意识 到 了 什么 ， 也 说 道 : “在 明代 ,矿井 深度 就 达到 数 百 丈 
了 。 像 这 种 考虑 井 巷 通风 、 排 水 ， 矿 石原 料 提 运 ， 的 复杂 工程 从 安全 角度 考虑 ， 必 须 
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建设 矿井 下 面 的 支撑 保护 ， 根 据 土壤 和 矿石 的 特点 ， 来 判断 矿井 地 压 方 向 ， 采 用 留 石 
柱 、 木 架 、 充 填 支 护 。” 


徐 教授 明了 电眼， 接 过 话 茬 : “说 得 都 很 好 ， 我 们 都 知道 采矿 之 后 的 环节 就 是 选 
矿 ， 选 矿 也 是 冶金 前 一 个 非常 重要 的 环节 。 说 起 选矿 ， 就 不 能 不 说 磨 矿 ， 大 家 对 磨 矿 
的 了 解 有 多 少 呢 ? ” 


贾 总 有 些 害羞 地 说 道 : “ 磨 矿 是 选矿 生产 过 程 中 前 期 不 可 或 缺 的 一 个 环节 ， 其 目 
的 是 将 大 颗粒 矿石 破碎 到 一 定 程度 。” 


另外 一 个 学 员 吓 了 吓 嘴 巴 ， 补 充 道 : “ 磨 矿 将 有 用 矿物 和 脉 石 矿物 分 离 ， 呈 单 体 
解 离 状 态 ， 以 利于 有 用 矿物 的 选 别 。” 


看 到 大 家 积极 发 言 ， 鼓 风 动 力 集团 的 王 总 也 赶忙 响应 道 : “ 磨 矿 流程 是 选矿 三 投 
资 最 多 、 电 耗 与 钢 耗 最 高 的 生产 工序 ， 其 生产 过 程 的 优化 控制 可 稳定 产品 质量 、 提 高 
磨 矿 效率 、 降 低能 耗 ， 并 且 直 接 制 约 着 选矿 产品 质量 和 金属 回收 率 。” 


台 下 有 人 开玩笑 说 道 : “ 磨 矿 ? 不 太 知道 。 不 过 我 对 这 个 感 兴趣 ， 回 头 可 以 自己 
麻 矿 冶炼 金子 。” 


徐 教授 继续 说 道 : “我 国明 朝 的 时 候 就 有 磨 矿 的 记载 了 : 先 将 破碎 矿石 ， 再 用 礁 
春 成 细 末 ， 然 后 用 大 桶 盛 水 ， 把 矿 末 投入 水 中 搅拌 ， 搅 后 ， 浮 在 水 面 上 的 称 细 粘 ， 基 
浮 水 中 的 称 梅 砂 ， 沉 于 桶 底 的 称 粗 矿 肉 。 再 将 细 粘 和 梅 砂 、 粗 矿 肉 用 尖 底 淘 倪 或 者 舟 
形 木 盘 淘 洗 ， 取 得 精 矿 。” 

电信 的 冯 总 洋洋 自得 地 说 道 “那个 淘 床 一 般 是 木料 的 ， 四 周 有 边 ， 淘 床上 固定 
一 个 圆 竹 镶 。 将 沙 倒 入 秒 内 ， 手 把 住 淘 床 后 面 的 木 架 ， 不 住 掀 租用 水 频 洗 沙 俯 ， 则 
沙 随 水 流 ， 金 从 黎 底 细 缝 透 下 ,沉淀 于 淘 床 上 。 淘 床 两 头 镶 板 ， 中 空 三 尺 多 ， 另 安 木 
板 一 块 ， 上 面 横 刻 木 槽 ， 复 底 透 出 的 沙 金 顺水 沉 入 槽 内 。 另 用 木 熙 一个， 空 出 一 面 ， 
类 似 舰 答 形状 ， 将 槽 内 矿质 扫 入 木 匣 ， 在 水 中 淘 洗 。” 


“ 徐 教授 、 电 信和 的 冯 总 ， 你 们 俩 讲 得 太 生动 了 。 那 个 磨 矿 的 画面 就 在 眼前 了 ” 
玻璃 公司 的 尚 主任 牌 着 脑袋 说 。 


= 


徐 教授 笑 着 ， 继 续 说 道 : “ 随 着 现代 技术 的 提升 ， 采 矿 和 选矿 技术 也 发 展 迅 速 。 
对 比 古代 磨 矿 技术 , 其 原理 没有 发 生 本 质变 化 : 利用 岩石 砂粒 与 矿物 颗粒 的 比重 不 同 ， 
通过 水 的 冲 淘 ， 将 它们 分 开 。 磨 矿 分 级 过 程 工艺 流程 图 如 下 图 所 示 。” 


给 水 粗 精 矿 


给 而 
球磨 机 
加 水 
二 级 溢 流 
\ (去 浮 选 ) 
S 一 和 


1 螺旋 分 级 机 


贾 总 自我 推荐 , 主动 给 大 家 讲 道 :“ 看 图 说 话 第 一 部 分 : 给 矿 机 和 一 定 比例 的 水 ， 
同时 将 原矿 给 入 工段 球磨 机 进行 研磨 ， 研 磨 后 的 矿 浆 排 入 分 级 机 ， 同 时 在 分 级 机 的 入 
口 加 水 。 分 级 机 返 砂 送 入 I 球磨 机 ， 分 级 机 与 一 段 球磨 机 形成 回路 。 分 级 机 的 溢 流 进 
入 泵 池 ， 同 时 补 加 水 进入 泵 池 。” 

工行 的 张 行 长 有 样 学 样 ， 也 凑热闹 地 说 道 : “看 图 说 话 第 二 部 分 : 胶 泵 将 泵 池内 
的 矿 浆 以 一 定 的 压力 和 浓度 打 入 水 力 旋 流 器 ， 矿 浆 在 旋 流 器 内 部 得 到 分 级 。 粗 粒 级 
矿 浆 由 旋 流 器 底部 的 沉 砂 口 排出 ， 形 成 循环 负荷 ， 进 入 工段 球磨 机 再 麻 。 磨 后 的 矿 
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浆 经 磨 机 排放 进入 泵 池 ， 进 行 下 次 分 级 。 细 粒 级 矿 浆 由 旋 流 器 顶部 滋 流 口 排放 ， 形 
成 二 段 球 磨 溢 流 矿 浆 进入 选 别 工 序 。” 

听 完 详细 的 流程 后 ， 大 家 都 有 了 更 深刻 的 理解 和 认识 : “ 那 确实 ， 和 过 去 的 机 
理 没 发 生 什 么 本 质 的 变化 。” 

看 大 家 都 理解 到 位 了 ， 徐 教授 进一步 说 道 : “ 磨 矿 中 ， 矿 质 的 粒度 不 但 是 磨 矿 作 
业 最 重要 的 生产 指标 ， 也 是 影响 后 续 选 别 作业 的 精 矿 品位 和 回收 率 的 关键 因素 。” 


看 大 家 茫然 的 表情 后 ， 徐 教授 示意 贾 总 进一步 给 大 家 解释 。 贾 总 便 站 起 来 说 道 : 
“ 磨 矿 粒度 过 粗 时 ， 矿 石 中 有 用 矿物 与 脉 石 之 间 没有 充分 解 离 ， 存 在 大 量 的 连 生体 ， 
难以 把 有 用 矿物 选 出 来 ; 反之 , 会 使 有 用 矿物 产生 泥 化 ， 同 样 不 利于 选 别 并 且 增 加 能 
源 消耗 。 因 此 ， 保 证 合适 的 粒度 是 麻 矿 过 程控 制 的 关键 。” 

徐 教授 喝 了 口水 后 说 道 : “由 于 在 线 粒 度 分 析 仪 过 于 昂贵 、 维 护 保养 复杂 ， 选 矿 
厂 难 以 承受 ， 且 现 有 的 粒度 计 检测 周期 长 ， 不 能 满足 实时 控制 的 要 求 。 这 些 情况 都 使 
磨 矿 细 度 方案 的 确定 有 很 大 难度 , 传统 的 统计 分 析 方 法 在 磨 矿 细 度 问题 上 也 显得 力 不 
从 心 。” 

贾 总 接着 说 道 ; “生产 中 矿石 以 及 辅料 的 种 类 越 多 ， 越 难以 把 握 最 优 磨 矿 细 度 。 
矿石 中 矿物 种 类 之 间 的 相互 作用 和 交叉 影响 ， 使 磨 矿 细 度 具有 很 强 的 非 线 性 特征 ， 难 
以 进行 单 因素 分 析 。” 

接 过 贾 总 的 话题 ， 台 下 有 人 说 道 : “在 实际 生产 中 表明 ， 载 金 矿物 与 脉 石 矿物 的 
共生 关系 较为 密切 ， 并 且 矿 物种 类 较 多 ， 如 : 宰 铁 矿 、 黄 铁 矿 、 白 云 石 、 石英 、 石墨、 
白 铅 矿 等 ， 所 以 磨 矿 细 度 要 达到 一 定 的 程度 才能 使 有 用 矿物 单 体 解 离 。” 

贾 总 说 道 : “是 啊 ， 多 次 的 磨 矿 细 度 试验 发 现 ， 在 磨 矿 细 度 增加 的 初期 ， 矿 石 品 
位 有 所 下 降 ， 但 回收 率 有 缓慢 上 升 的 趋势 ， 当 细 度 达到 一 定 程度 时 回收 率 不 再 上 升 ， 
矿 品 位 也 处 在 较 高 位 。” 

“就 是 ， 数 据 挖掘 能 为 磨 矿 献 什 么 样 的 计 、 什 么 样 的 策 ， 徐 教授 ， 我 已 经 迫 不 及 
待 想 知道 了 ! ” 台 下 另外 一 个 学 员 听 了 前 面 的 铺垫 介绍 后 ， 心 急 地 问 道 。 
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徐 教授 说 道 , “上 听 我 慢 慢 讲 ， 太 快 了 大 家 会 回 轿 春 束 ， 这 不 是 个 好 现象 。 让 我 们 
回头 看 磨 矿 流程 工艺 图 , 可 以 发 现 该 过 程 中 旋 流 器 溢 流 矿 浆 粒度 为 整个 磨 矿 作业 的 关 
键 工 艺 指标 ， 关 系 到 磨 矿 作业 的 质量 ， 直 接 影响 后 续 选矿 过 程 的 金属 回收 率 和 精 矿 品 
位 。 因 此 ， 对 其 洪流 粒度 的 有 效 控制 显得 至 关 重要 。” 


“ 徐 教授 ， 我 们 要 怎么 预测 磨 矿 粒度 呢 ? ” 台 下 有 人 发 出 疑问 。 


徐 教授 解释 道 : “首先 找到 与 磨 矿 粒 度 相 关 的 变量 ， 如 球磨 机 给 矿 量 、 给 水 量 、 
磨 机 电流 、I 段 螺旋 分 级 机 溢 流 浓度 、 泵 池 补 加 水 量 、II 段 螺 旋 分 级 机 给 矿 浓度 等 数 
据 。” 


变量 名 称 变量 类 型 是 否 选 入 建 模 
X1: 给 矿 量 自 变量 是 
Xs: 给 水 量 自 变量 是 
X3: 磨 机 电流 量 自 变 量 是 
X4: 返 沙 比 自 变量 否 
Xs: 工 螺 旋 分 级 机 洪流 浓度 自 变量 是 
X6: 泵 池 里 补 加 水 量 自 变量 否 
X7: 开 螺 旋 分 级 机 给 矿 浓 度 自 变量 是 
M2oo: 磨 矿 粒 度 目标 变量 是 


“ 徐 教 授 ， 表 中 的 最 后 一 栏 中 的 建 模 选取 或 不 选取 标准 是 什么 呢 ? ” 台 下 有 人 问 
道 。 

徐 教授 回答 道 : “首先 通过 对 收集 磨 矿 细 度 数据 ， 对 其 进行 滤波 、 去 量 纲 等 预 处 
理 操作 。 其 次 ， 采 用 数据 挖掘 技术 中 聚 类 、 主 成 分 分 析 等 方法 ， 就 可 以 找 出 在 此 阶段 
中 影响 回收 率 的 关键 因素 。 以 影响 回收 率 和 冶金 品位 的 关键 因素 作为 自 变 量 , 回收 率 
为 因 变量 的 神经 网 络 预测 模型 。” 

玻璃 公司 的 尚 主任 问 道 : “神经 网 络 进行 预测 ， 比 回归 的 优势 在 哪里 呢 ? ” 


徐 教授 解释 道 : “由 于 神经 网 络 具 有 很 强 的 并 行 处 理 、 自 适应 、 自 组 织 、 联 想 记 
忆 及 容错 能 力 , 所 以 可 以 为 复杂 生产 过 程 中 难以 测量 的 工艺 参数 进行 在 线 检测 提供 了 
有 效 途径 。 同 时 ， 神 经 网 络 非 线 性 处 理 能 力 和 逼近 能 力 强 ， 学 习 时 间 短 ， 网 络 运算 速 
度 快 。” 


= 


第 5 章 数据 挖掘 在 冶金 行业 的 应 用 


看 到 大 家 沉默 ， 徐 教授 继续 解释 道 : “采用 神经 网 络 建立 磨 矿 粒度 预测 模型 ， 神 
经 网 络 在 这 里 充当 黑匣子 ， 通 过 模型 就 可 以 对 选矿 厂 磨 矿 分 级 过 程 进行 预测 。” 

“原来 是 这 样 ” 台 下 一 学 员 沉 吟 着 咬 咕 道 。 

台 下 有 人 问 道 : “ 徐 教授 ， 这 个 神经 网 络 方法 进行 预测 的 效果 怎么 样 呢 ? ” 

徐 教授 回答 道 : “将 训练 好 的 磨 矿 粒度 神经 网 络 软 测量 模型 用 于 某 大 型 选矿 厂 麻 
矿 过 程 进行 磨 矿 粒度 在 线 软 测量 。 模 型 嵌 于 现场 应 用 的 磨 矿 过 程 优化 软件 中 ,通过 监 
控 机 直接 获取 仪表 的 检测 数据 进行 测量 (测量 结果 与 实验 室 化 验 结果 的 比较 如 下 图 所 


示 ) 。 仿 真 结果 表明 ， 该 模型 能 够 很 好 地 实现 磨 矿 粒度 的 在 线 测量 ， 模 型 精度 也 满足 
工艺 要 求 。” 


最 终 ， 学 员 都 明白 了 如 何 针 对 不 同 批 次 、 品 质 的 矿石 实验 确定 最 佳 控制 参数 的 原 
理 和 概要 ， 以 达到 提高 回收 率 和 治 矿 品位 。 


=167= 


数据 挖 所 


100 | 
98 | 一 着 昌 
96 | | 

94 | | | | , 
921 于 中 人 ni i 
90 | |, | 
88 | ‘Y 
86 | | - 
84| ! 
82 | 
80 


磨 矿 粒度 % 


0 10 20 30 40 50 60 70 80 90 100 


5.5 ”炼焦 配 煤 优 化 


徐 教授 说 道 : “这 节 课 我 们 讨论 与 冶金 相关 的 另外 一 个 数据 挖掘 的 应 用 问题 一 一 
炼焦 配 煤 优化 。 大 家 知道 ， 焦 炭 是 冶金 、 机 械 、 化 工行 业 的 主要 原料 和 燃料 。 我 国 煤 
炭 资 源 虽然 比较 丰富 ， 但 炼焦 煤 资 源 却 相当 贫乏 ， 为 了 合理 的 利用 煤炭 资源 ， 节 约 优 
质 炼焦 煤 ， 生 产 出 高 质量 的 焦 峰 ， 肥 需 改进 炼焦 配 煤 技术 。” 


作为 业内 人 士 , 玻璃 公司 的 尚 主任 首先 说 道 :“ 高 炉 用 焦 和 和 铸造 用 焦 要 求 比较 高 ， 
大 多 数 单 种 煤 在 焦 炉 内 不 易 炼 出 机 械 强度 较 高 的 优质 冶金 焦 。 配 煤 过 程 涉及 到 把 多 种 
性 质 不 同 的 单 种 煤 ， 按 照 一 定 的 比例 进行 配合 ， 得 到 符合 质量 要 求 的 配合 煤 。 这 种 配 
合 煤 通过 炼焦 过 程 后 ， 可 以 获得 高 炉 炼 铁 用 的 焦炭 。” 


尚 主任 停顿 了 一 会 后 ， 鼓 风 动力 集团 的 王 总 说 : “目前 一 般 的 焦化 厂 的 炼焦 配 煤 
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工艺 大 致 是 : 通过 配 煤 模 ， 将 各 煤 槽 中 的 单 种 煤 传送 到 输送 皮带 上 ， 混 合 均匀 后 经 过 
除 铁 和 粉碎 送 往 焦 炉 炼 焦 。” 


徐 教授 补充 说 道 : “在 炼焦 配 煤 过 程 中 ， 存 在 确定 配 比 时 主观 随意 性 大 、 准 确 性 
不 高 的 问题 。 此 外 由 于 炼焦 配 煤 控制 系统 的 复杂 性 ， 传 统 PID 控制 方式 对 炼焦 配 煤 过 
程 的 控制 存在 着 控制 精度 不 够 高 、 实 时 性 不 够 好 等 缺点 。 所 以 如 何 设计 炼焦 配 煤 优化 
模型 ， 并 实现 其 工业 应 用 以 期 获得 有 利于 炼焦 配 煤 工艺 的 方法 非常 值得 研究 。” 


听 完 前 面 的 讲解 后 ， 工 行 的 张 行 长 问 道 : “人 徐 教授 ,我 是 纯粹 外 行 ， 一 点 也 不 懂 
这 个 炼焦 配 煤 。 一 般 而 言 ， 影 响 炼 焦 质 量 的 主要 因素 有 哪些 呢 ? ” 

“我 知道 一 个 ， 水 分 。” 刘 经 理 抢先 回答 道 。 

徐 教授 说 道 ， “确实 是 ， 回 答 的 很 好 ， 值 得 表扬 的 一 点 是 会 用 统计 规律 来 判断 。 
配合 煤 的 含水 量 对焦 炉 的 生产 和 焦炭 质量 都 有 很 大 影响 。 配 煤 水 分 高 , 炼焦 耗 热量 大 ， 
结 焦 时 间 长 ， 因 而 使 焦 炉 生产 能 力 降低 。 配 合 煤 水 分 应 力求 稳定 ， 以 利于 焦 炉 加 热 稳 
定 ， 因 此 来 煤 应 避免 直接 进 配 煤 档 。” 

“一 般 煤 场 等 工厂 治理 污染 的 时 候 ， 都 说 要 防止 空气 污染 。 比 如 防止 产生 酸雨 ， 
所 以 我 猜测 这 个 里 面 会 不 会 有 硫 的 成 分 呢 ? ” 李 主 任 问 道 。 


徐 教授 点 评 道 : “ 李 主 任 ， 你 这 个 猜测 很 对 ， 而 且 有 推理 ， 有 神探 柯南 的 风范 。 
硫 分 对 炼焦 配 煤 的 影响 也 比较 大 ， 焦 炭 含 硫 高 ， 将 使 生铁 含 硫 高 ， 质 量 降低 ， 同 时 还 
将 影响 炉渣 的 碱 度 。 特 别 是 含 硫 量 波动 较 大 时 ， 对 高 炉 操作 指标 的 影响 很 大 。” 

电力 公司 的 刘 经 理 连 忙 说 道 : “上课 之 前 我 做 了 一 点 功课 ， 学习 了 一 点 点 工艺 方 
面 的 常识 。 对 炼焦 影响 较 大 的 另外 一 个 重要 因素 是 灰分 ， 在 炼焦 过 程 中 ， 配 合 煤 的 灰 
分 全 部 转 入 焦炭 。 灰 分 是 硬度 较 大 的 惰性 物质 ， 配 合 煤 灰 分 高 ， 则 粘 结 性 较 差 ， 炼 出 
的 焦炭 裂纹 宽 、 深 且 长 ， 强 度 低 。” 


<== 


李 部 长 也 信心 满 满 地 说 道 : “在 高 炉 冶炼 中 ， 高 灰分 的 焦炭 一 方面 在 热 作用 下 裂 
纹 扩展 焦炭 粉 化 影响 透气 性 ， 男 一 方面 ， 在 高 温 下 焦 痰 结构 强度 降低 ， 热 强度 差 ， 
使 焦炭 在 高 炉 内 进一步 被 破坏 ， 不 能 很 好 地 起 到 骨架 作用 。 降 低 配合 煤 灰 分 有 利于 降 
低 焦炭 灰分 ， 可 使 高 炉 、 化 铁 炉 等 降低 焦 耗 ， 提 高 产量 。” 


“回答 得 很 对 ， 表 现 很 好 ， 提 前 做 功课 也 非常 值得 表扬 。 这 个 课 我 越 上 越 喜 欢 ， 
开始 享受 这 种 上 课 方 式 。 知 道 了 这 些 关 键 因素 之 后 ， 我 们 就 可 以 通过 对 水 分 、 灰 分 、 
硫 成 分 控制 整个 炼焦 配 煤 的 工艺 。” 


“ 徐 教授 ， 你 的 意思 是 否 这 样 理 解 : 通过 数据 挖掘 手段 预测 一 下 灰分 、 水 分 、 硫 
分 的 比例 , 比如 神经 网 络 或 者 支撑 向 量 机 回归 方法 , 这 样 就 可 以 控制 生产 中 的 各 参数 ， 
以 实现 最 佳 效果 ? ”玻璃 公司 的 尚 主任 提问 道 。 
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徐 老 师 慈 祥 地 笑 道 : “真是 一 点 就 通 ， 这 里 采取 的 主要 手段 是 神经 网 络 方法 。 研 
究 表明 ， 传 统 控制 虽然 取得 了 比较 好 的 控制 效果 。 但 是 ， 由 于 缺乏 自学 习 能 力 ， 自 适 
应 能 力 差 ， 使 系统 的 鲁 棒 性 受到 限制 。 神 经 网 络 具 有 强大 的 自学 习 能 力 ， 可 动态 调整 
隶属 函数 ， 在 线 优 化 控制 规则 ， 设 计 出 模糊 神经 网 络 控制 器 。 应 用 在 变 参数 的 炼焦 配 
煤 系统 对 象 模型 ， 可 以 取得 很 好 的 控制 效果 。 通 过 神经 网 络 方法 ， 我 们 可 以 建立 焦 迪 
水 分 、 灰 分 、 硫 分 的 预测 模型 。” 


“ 徐 教授 ， 那 在 建立 模型 时 ， 应 该 选取 哪些 参数 呢 ? ”又 有 人 问 道 。 


徐 教授 说 : “ 拿 灰 分 预测 模型 来 说 ， 建 立 预 测 模型 时 焦炭 的 灰分 完全 来 自 于 炼焦 
煤 的 灰分 ， 预 测 焦炭 灰分 的 关键 参数 是 炼焦 煤 灰 分 ; 关于 硫 分 的 预测 模型 ， 选 择 炼焦 
煤 硫 分 和 炼焦 煤 挥发 硫 分 作为 两 个 预测 参数 ， 关 于 水 分 的 预测 ， 稍 微 复杂 一 些 ， 需 要 
考虑 相关 的 冷 强度 和 热 性 质 两 个 方面 , 焦炭 冷 强 度 的 预测 选择 炼焦 煤 反射 率 和 炼焦 煤 


焦煤 胶 质 层 最 大 厚度 、 炼 焦煤 灰分 、 炼 焦煤 微 强 粘 比 、 催 化 指数 等 。” 


炼焦 配 煤 模型 表征 参数 
硫 分 预测 炼焦 煤 硫 分 和 炼焦 煤 挥发 硫 分 
灰分 预测 炼焦 煤 灰分 
水 分 项 测 : 冷 强度 焦煤 反射 率 、 炼 焦煤 胶 质 层 最 大 厚度 
水 分 预测 ， 热 性 质 平均 最 大 反射 率 、 炼 焦煤 胶 质 层 最 大 厚度 、 炼 焦煤 灰分 、 炼 焦煤 微 强 
粘 比 、 催 化 指数 
“ 徐 教授 ， 在 利用 神经 网 络 建立 上 述 预 测 模型 时 ， 需 要 把 握 哪些 方面 ? ”下 面 有 
学 员 提 问 道 。 


“首先 ， 根 据 实 际 问题 确定 输入 特征 向 量 和 隶属 函数 ， 其次， 必须 根据 实际 需要 
确定 网 络 的 拓扑 结构 ， 即 网 络 具体 由 几 层 构成 ， 每 一 层 应 该 设置 几 个 节点 ， 合 理 的 网 
络 结构 会 使 网 络 的 学 习 收敛 过 程 加 快 ， 有 效 减 少 网 络 的 复杂 性 ; 第 三 ， 选 择 网 络 的 算 
法 ， 现 在 已 有 许多 理论 成 熟 的 神经 网 络 算法 ， 每 一 种 算法 都 有 其 优 缺 点 ， 都 有 其 适用 
的 领域 , 因此 , 选择 网 络 算法 时 要 考虑 到 实际 应 用 的 需要 及 网 络 的 推广 与 优化 能 力 。” 
徐 教授 回答 道 。 


= 


= 
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“炼焦 配 煤 了 


[ 艺 直接 影响 到 焦炭 生产 的 质量 , 针对 传统 的 炼焦 配 煤 工艺 的 影响 因 
素 , 采用 数据 挖掘 算法 优化 设计 炼焦 配 煤 工艺 的 控制 模型 ， 对 于 进一步 提高 炼焦 本 
[ 艺 的 生产 质量 具有 一 定 借鉴 意义 ， 值 得 大 力 推广 。” 


的 学 员 居 然 大 悟 。 


才 配 煤 
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世界 各 地 有 许多 国家 每 年 都 会 因为 纳税 人 的 偷 漏税 问题 而 损失 大 量 的 财政 收入 。 
过 去 ,税务 稽查 人 员 经 常 依靠 以 往 的 工作 经 验 和 某 些 直觉 上 的 判断 来 圈定 不 法 纳税 人 
的 特征 。 随 着 经 济 发 展 和 税务 体制 的 改革 ， 税 源 、 税 种 在 不 断 增加 ， 过 程 中 累积 了 大 
量 的 税务 数据 。 这 时 ， 以 往 的 依靠 经 验 和 直觉 判断 区 分 违法 纳税 人 的 方式 ， 势 必 会 导 
致 稽查 成 本 增 大 、 选 案 不 科学 、 稽 查 效率 低下 等 问题 。 借 鉴 国外 的 成 功 经 验 ， 使 用 数 
据 挖 据 ， 对 税务 管理 部 门 所 辖 的 纳税 户 进行 纳税 评估 工作 ， 建 立 动态 、 智 能 化 的 稽查 
选 案 ， 将 会 大 大 提高 稽查 工作 的 效果 。 本 次 EMBA 将 安排 一 节 课 来 专门 讲述 数据 挖掘 
在 税务 稽查 中 的 应 用 。 


由 于 科技 的 日 新 月 异 以 及 金融 服务 业 的 全 球 化 , 洗钱 已 经 变 得 国际 化 和 日 益 复 杂 
化 ， 成 为 一 种 “犯罪 屏障 ”， 让 犯罪 分 子 有 导 无 怒 ， 危 害 其 大 。 世 界 各 国 从 各 方面 加 
强 反 洗钱 工作 ， 比 如 完善 制度 建设 及 加 强 监管 等 反 洗钱 获得 了 不 少 进展 。 值 得 一 提 
的 是 ， 数 据 挖 握 手段 为 洗钱 客户 的 识别 、 大 额 可 疑 交易 的 及 时 发 现 并 报告 方面 提供 了 
一 种 可 行 的 有 力 支 撑 。 本 次 EMBA 将 安排 一 节 课 程 讲述 反 洗 钱 的 内 容 。 

金融 市 场 中 ， 股 票 投资 具有 高 风险 与 高 利润 并 存 的 特点 。 科 学 的 股票 投资 做 法 
应 该 是 根据 预先 设 定 的 标准 ,选择 股票 ,并 对 其 在 组 合 中 的 相对 权重 进行 优化 配置 ， 
使 构建 出 的 股票 指数 组 合 的 追踪 成 本 和 风险 控制 在 可 接受 范围 内 。 针 对 股票 市 场 进 
行 市 场 追踪 和 收益 优化 ， 不 论 对 金融 机 构 还 是 个 人 投资 者 都 意义 重大 。 本 次 EMBA 
将 安排 一 节 课 程 来 学 习 数 据 挖 气 在 股票 指数 追踪 中 的 应 用 .。 
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6.1 税务 稽查 


李 部 长 今天 来 得 特别 早 ， 一 边 翻 看 着 手机 报 ， 一 边 注视 着 教室 门口 。 看 见 孔 部 攻 
走 进 教室 ， 赶 紧 向 他 摆手 ， 一 边 说 道 :“ 老 孔 ， 来 坐 这 ， 来 坐 这 ! ” 

孔 部 长 冲 李 部 长 笑 笑 ， 和 其 他 同学 打 了 招呼 就 径直 走 到 李 部 长 旁边 的 位 子 坐 下 ， 
问 道 “ 李 大 部 长 ， 有 什么 事情 指教 ?” 

李 部 长 故意 神秘 今 今 的 , 趴 到 孔 部 长 耳 昱 说 ，“Google 偷税 被 查 出 来 了 ， 都 上 新 
闻 了 ! 你 不 知道 ? ! ” 

“这 个 事 ， 知 道 啊 ， 又 不 是 我 开 的 Google 公司 ， 关 我 什么 事 ? ! ”和 孔 部 长 装 作 
满不在乎 。 

“谷歌 在 中 国 大 陆 罩 举 报 可 能 有 逃税 问题 ， 北 京 市 地 税 局 第 二 重 查 局 正在 对 谷 
歌 进行 调查 呢 ! 亏 你 还 是 银行 洗钱 监察 专家 呢 ， 这 个 都 不 关心 ?2! ”有 点 失落 的 李 部 
长 说 。 

“哈哈 ! 我 的 李 大 部 长 啊 ， 这 个 事情 我 昨天 就 知道 了 ! 这 样 的 信息 我 怎么 可 能 不 
关注 呢 ? ! 你 落伍 啦 ! ”和 孔 部 长 说 。 
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Go > 二 im 
公 融 概 揭 俐 祝 亿 元 …，Q [5…] 


ryle 咱 说 在 中 国 注 娩 伺 锐 QC"] 


向 艇 站 邹 件 EQ 在 华 …， QL 


李 部 长 被 弄 得 摸 不 着 头绪 了 ， 说 : “不 可 能 ! 我 今天 才 看 到 的 新 闻 啊 ! ” 


“确实 是 昨天 的 新 闻 啊 ! 老 李 啊 ! ” 孔 部 长 大 笑 着 说 。 


李 部 长 仔细 一 看 ， 原 来 自己 昨天 的 手机 报 没 看 , 现在 看 的 正 是 昨天 的 手机 报 ， 乾 
从 地 说 : “ 唉 ! 我 今天 看 的 是 昨天 的 新 闻 ， 其 实 我 就 是 想 幽默 下 ， 哈 哈 ! ” 李 部 长 给 
自己 找 了 个 台阶 下 ,接着 说 : “ 老 孔 ， 现 在 税务 移 查 那么 严格 ， 谷 歌 是 怎么 逃税 的 ? ” 


“这 个 还 真 不 太 清楚 。” 筷 部 长 说 。 


“说 什么 呢 ?” 这 么 热闹 ! ” 李 部 长 和 孔 部 长 说 得 正 起 劲 ， 却 没 发 现 徐 教授 已 到 了 
身 旁 。 
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孔 部 长 发 自 内 心 的 仰慕， 对 徐 教授 说 : “ 刚 说 谷歌 逃税 呢 ， 正 有 问题 想 请 教 徐 老 
您 呢 ! ” 


“是 吗 ? 今天 我 们 的 话题 就 是 数据 挖 据 在 税务 行业 的 应 用 , 不 妨 我 们 大 家 一 起 来 
好 好 讨论 一 下 。” 徐 教授 说 。 


说 完 徐 教授 径直 走向 讲台 ， 说 道 : “大 家 静 一 下 ， 开 始 上 课 了 ! ”大 家 都 把 手机 
调 成 震动 ， 打 开 笔 记 本 准备 听课 。 

徐 教授 说 : “这 两 天 发 生 一 件 新 闻 ， 相 信 大 家 都 听 说 了 ， 搜 索引 擎 公司 谷歌 涉嫌 
逃税 。” 

“Google 怎么 可 能 逃税 呢 ? ”有 人 问 道 。 

税务 局 姚 局 长 开 了 口 : “Google 从 2000 年 开始 向 中 国 网 民 提 供 中 文 搜索 服务 ， 
2003 年 再 推出 中 文 关 键 词 广告 。 在 这 段 期 间 ， 中 国 客户 只 要 拥有 一 张 国 际 信用 卡 ， 
把 钱 直 接 打 入 Google 在 美国 的 账号 ， 就 可 以 在 Google 网 上 购买 关键 词 广告 。 虽然 发 
布 广告 的 客户 和 由 此 产生 的 点 击 收入 都 来 自 中 国 , 但 是 相关 的 资金 流转 在 中 国 却 没 有 
任何 记录 。 作 为 Google 曾经 的 客户 都 没有 从 Google 拿 到 正式 发 票 ， 客 户 虽然 通过 代 
理 商 可 以 得 到 正式 发 票 ， 但 开票 单位 是 代理 商 而 非 Google， 是 代理 商 和 Google 间 的 
结算 。” 

“ 哦 ， 原 来 这 样 ! 真 够 狭 独 的 ! ” 台 下 的 学 员 听 姚 局 长 说 了 内 幕 ， 己 然 大 悟 。 

“ 那 还 有 一 个 问题 ， 是 怎么 发 现 谷歌 逃税 的 ? ” 李 部 长 问 道 。 

“据说 有 人 举报 才 发 现 的 。” 姚 局 长 回答 道 。 

孔 部 长 听 完 笑 着 说 : “ 光 靠 举报 恐怕 不 行 吧 ! 目前 税务 部 门 是 如 何 来 进行 稽查 选 
案 的 呢 ? ” 
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姚 局 长 说 : “目前 我 国税 务 机 关 主 要 采用 人 工 选 案 的 方法 。 人 工 选 案 主要 是 税务 
稽查 工作 人 员 根据 纳税 人 名 单 ， 按 企业 性 质 、 按 企业 工作 方式 、 按 企业 规模 等 方式 进 
行 排查 。” 

“这 种 方法 效果 怎么 样 ? ” 李 部 长 侧 着 耳 采 听 了 好 久 ， 转 过 头 问 姚 局 长 。 


姚 局 长 声音 洪亮 地 说 : “这 种 方法 存在 着 很 大 的 盲目 性 和 随意 性 ， 至 于 哪些 企业 
有 问题 ， 哪 些 企业 需 检 查 ， 经 常 是 按照 以 往 稽查 经 验 或 者 主观 脐 断 来 进行 稿 查 ， 结 果 
导致 稽查 成 功率 很 低 并 且 造 成 税务 机 关 人 力 、 物 力 、 财 力 的 浪费 ， 也 增加 了 纳税 人 的 
负担 。 随 着 经 济 的 发 展 ， 自 然而 然 地 引起 税源 、 税 种 的 增加 ， 这 时 仍然 沿用 以 前 的 老 
方法 , 一 方面 大 面积 撤 网 会 使 稽查 成 本 增 大 , 选 案 的 不 科学 性 也 会 引起 稽查 效率 低下 ， 
甚至 会 有 较 多 的 漏网 之 鱼 。” 


徐 教授 看 着 台 下 的 学 生 ， 意 味 深长 地 说 道 : “我 国 已 经 成 为 世界 第 二 大 经 济 实 
体 国 ， 提 高 税务 稽查 工作 的 效率 ， 已 成 为 当务之急 。 税 务 机 关 必 须 把 现代 化 的 科学 
手段 引进 税务 稽查 中 ， 实 行 计算 机 智能 选 案 ， 也 就 是 利用 数据 挖掘 技术 ， 将 稽查 经 
验 模型 化 ， 然 后 对 纳税 资料 进行 系统 地 分 析 、 对 比 、 排 列 和 组 合 ， 从 中 列 出 税务 重 
查 重点 对 象 。” 


“数据 挖掘 首先 需要 有 充分 的 数据 积累 ， 现 在 税务 部 门 这 方面 的 条 件 具 备 吗 ? ” 
有 人 担心 地 问 道 。 


税务 局 姚 局 长 回应 道 : “应 该 没有 问题 。2001 年 起 全 国税 务 系统 形成 了 以 增值 税 
发 票 交 叉 移 核 比 对 为 主要 内 容 的 “ 金 税 工程 ”广域网 络 系统 ， 积 累 的 数据 量 激增 ; 之 
后 又 推行 了 统一 的 征管 系统 ， 建 设 了 市 一 级 的 集中 数据 处 理 中 心 ， 市 、 县 、 乡 镇 基层 
分 所 的 业务 统一 到 了 市 局 ， 实 现 了 集中 管理 ， 现 在 正在 推行 省 一 级 的 集中 数据 处 理 模 
式 ， 税 务 数据 累积 的 速度 和 数量 增长 更 是 惊人 。” 
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徐 教授 说 : “ 随 着 数据 的 不 断 积累 ， 数 据 挖掘 在 税务 行业 将 更 有 用 武之 地 。” 
“发 达 国家 税务 稽查 选 案 有 什么 经 验 可 以 借鉴 ?3 ” 李 部 长 问 道 


“美国 的 数据 挖掘 技术 应 用 于 税务 行业 的 时 间 比 较 早 ，90% 以 上 的 案件 是 通过 计 
算 机 程序 对 纳税 信息 的 分 析 而 筛选 出 来 的 ， 基 层 稽查 人 员 只 有 不 到 10% 的 参与 决策 
权 。” 姚 局 长 介绍 国外 的 情况 。 


“ 喷 喷 ! 瞧 人 家 这 水 平 ! ”有 人 慨叹 不 已 。 


“有 了 国外 经 验 ， 咱 们 就 可 以 少 走 弯路 了 哦 ! ” 台 下 有 人 说 。 


徐 教授 说 : “是 这 么 个 道理 ! 从 国外 税务 稽查 的 经 验 看 ， 科 学 技术 力量 的 充分 运 
用 ， 财力、 物力 、 和 人力 的 优化 配置 以 及 强大 执法 权力 的 法 律 保障 是 做 好 税务 稽查 工作 
的 基础 。 案 源 信息 的 完备 (如 纳税 人 各 种 基础 资料 的 收集 与 评估 的 准确 和 完整 性 ， 法 
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定 的 广泛 信息 共享 及 获取 权 和 强大 的 信息 分 析 及 评估 利用 ) 为 税务 稽查 科学 化 、 精 细 
化 提供 了 有 力 保证 。” 


“ 徐 老师 ， 要 利用 数据 挖掘 技术 实现 计算 机 智能 选 案 ， 有 具体 应 该 怎么 做 呢 ? ” 


“首先 我 们 要 选取 税收 有 关 指 标 ， 然 后 用 聚 类 分 析 方 法 进行 聚 类 ， 再 对 每 一 个 艇 
选取 有 关 指 标 , 对 指标 进行 遍历 , 发 现 异常 进行 标记 , 如 果 遍 历 结 束 都 没有 发 生 异 常 ， 
很 好 ， 我 们 就 认为 那 一 簇 的 企业 都 是 守法 单位 。 请 看 大 屏幕 。” 徐 教授 向 上 托 了 托 眼 


“原来 是 这 样 ， 不 错 ! 很 强大 ! 偷税 漏税 无 处 光 了 。” 


“这 只 是 举 个 简单 的 实施 例子 ， 其 实 如 果实 施 起 来 中 间 会 有 很 多 复杂 的 细节 。 为 
了 更 好 地 提高 税务 行业 的 效率 、 公 平 ， 为 国家 严 把 税务 大 门 ， 这 样 一 个 简单 系统 还 是 
不 够 的 ， 我 们 需要 建立 基于 数据 挖 抉 技术 的 税务 决策 支持 系统 。” 徐 教授 说 。 
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6.2” 反 洗钱 


徐 教授 : “2008 年 年 初 ， 陈 水 扁 家 在 瑞士 的 2100 万 美元 遭 冻 结 曝光 ， 由 此 牵扯 


出 陈水扁 家 族 将 巨额 款项 洗钱 到 海外 。2008 年 8 月 14 日 陈水扁 成 为 阶下囚 。 本 节 课 ， 


就 让 我 们 一 起 来 研究 一 下 洗钱 的 相关 问题 。 谁 先 来 告诉 我 们 什么 是 洗钱 ? ” 


工行 的 张 行 长 回答 说 : “洗钱 指 将 毒品 犯罪 、 黑 社会 性 质 的 组 织 犯 罪 、 恺 怖 活动 
犯罪 、 走 私 犯罪 或 者 其 他 违法 所 得 及 其 产生 的 收益 ， 通 过 各 种 手段 掩饰 、 隐 瞒 其 来 源 
和 性 质 ， 使 其 在 形式 上 合法 化 的 行为 。” 


“回答 的 非常 专业 。 洗 钱 活动 最 早出 现在 20 世纪 20 年 代 ， 当 时 美国 芝加哥 的 一 


名 黑手 党 成 员 开 了 一 家 洗衣 店 , 在 每 晚 计算 当天 的 洗衣 收入 时 ,他 把 非法 收入 混入 洗 
衣 收 入 中 ， 再 向 税务 部 门 纳税 ， 扣 去 应 缴 的 税 款 后 ， 剩 下 的 非法 所 得 就 成 了 他 的 合法 
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收入 。 一 般 地 ， 黑 钱 的 非法 来 源 途 径 有 : 贩毒 、 走 私 、 贩 卖 军 火 、 诈 骗 、 盗 窃 、 抢 动 、 
贪污 、 偷 税 漏税 等 犯罪 活动 ”， 徐 教授 说 道 。 


“ 徐 教授 ， 那 这 些 黑钱 是 怎么 转化 成 合法 的 金钱 的 呢 ? ”下 面 一 个 学 员 问 道 。 


徐 教授 回答 说 : “洗钱 主要 手段 有 以 下 几 种 。 第 一 种 ， 也 是 最 容易 想到 的 方法 : 
存 进 银行 , 以 本 人 、 亲 属 或 者 其 他 人 名 义 ， 甚 至 用 化 名 或 假名 , 将 非法 所 得 存 入 银行 ， 
变 成 合法 存款 的 一 部 分 第 二 种 ， 搞 “一 家 两 制 ，， 一 边 非法 捞 钱 ， 一 边 授 意 亲 属 或 
子女 创办 现金 密集 型 的 公司 或 企业 ,将 非法 所 得 混入 营业 收入 一 并 申报 纳税 ， 以 掩饰 
非法 资金 的 真实 来 源 ， 第 三 种 ， 通 过“ 稻草人” 打 理 开办 的 公司 ， 企 业 表 面 上 是 他 人 
的 ， 实际 上 由 自己 控制 ; 第 四 种 ,通过 地 下 钱庄 、 赌 场 等 将 黑钱 转移 出 国 出 境 ， 也 有 
些 是 直接 安排 在 境外 收取 赃款 并 就 地 清洗 。 此 外 ， 新 的 洗钱 方式 是 在 科技 进步 和 金融 
创新 的 形势 下 出 现 的 , 如 通过 通信 账户 、 网 银 、 国 际 互联 网 银行 、 智 能 卡 进行 洗钱 等 。” 
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“手段 还 真 多 样 化 , 难怪 洗钱 演化 的 这 么 猩 狐 。 这 些 人 真是 老百姓 和 国家 的 祸害 ， 
应 该 严 历 打击 ! ” 台 下 马 处 长 气愤 地 说 。 

工行 的 张 行 长 接 过 话题 说 道 : “就 是 ， 洗 钱 不 仅 造成 了 极其 严重 的 经 济 、 安 全 和 
社会 后 果 ， 同 时 还 为 贩毒 者 、 恐 怖 主义 分 子 、 非 法 武器 交易 商 、 腐 败 的 政府 官员 以 及 
其 他 罪犯 的 运作 和 发 展 提供 了 动力 。” 


徐 教授 说 道 : “ 正 是 这 样 ， 反 洗钱 行为 应 运 而 生 。 各 国政 府 动用 司法 力量 ， 比 如 
颁布 《 反 洗 钱 法 》， 调 动 有 关 的 组 织 和 商业 机 构 对 可 能 的 洗钱 活动 予以 识别 ， 对 相关 
机 构 和 人 士 了 予以 惩罚 ， 从 而 达到 阻止 洗钱 犯罪 活动 目的 。” 


工行 的 张 行 长 说 道 :; “洗钱 已 经 变 得 越 来 越 国 际 化 ， 而 与 犯罪 活动 有 关 的 金融 问 
题 也 由 于 科技 的 日 新 月 异 以 及 金融 服务 业 的 全 球 化 而 变 得 日 益 复杂 化 。 所 以 如 何 进行 
反 洗 钱 、 有 效 地 甄别 出 犯罪 特征 、 与 犯罪 份子 作 斗 争 也 越 来 越 难 ”。 


徐 教授 补充 道 : “以 911 事件 为 例 ， 乘 坐 美国 航空 公司 的 恐怖 分 子 持 学 生 签证 进 
入 美国 ， 他 们 的 银行 账户 有 大 量 资金 进出 ， 而 且 大 多 数 是 从 已 知 的 、 支 持 恐 怖 主义 的 
国家 大 笔 电 汇 的 ， 但 几乎 没有 典型 的 学 生 消费 支出 。” 


“如 果 在 炸 五 角 大 楼 之 前 ， 美 国安 全 局 接收 到 关于 银行 的 可 疑 洗钱 报告 就 好 了 
能 避免 一 场 灾难 。” 下 面 有 人 感慨 道 。 

“事实 是 收 到 了 那个 关于 洗钱 的 可 疑 报告 , 但 是 结果 也 不 会 有 什么 改变 。 因 为 每 
年 各 金融 机 构 提 交 的 可 疑 报告 数 非常 多 , 可 最 后 根据 线索 确定 是 洗钱 的 比例 占 可 疑 报 
告 总 数 不 到 万 分 之 六 ， 所 以 没有 引起 足够 重视 。” 徐 教授 说 道 。 

马 处 长 感慨 地 说 : “感觉 这 有 点 类 似 于 中 国 古代 语言 故事 一 一 狼 来 了 ， 刚 开始 的 
时 候 监 管 部 门 会 比较 重视 验证 真实 性 。 随 着 可 疑 交 易 报 告 数量 的 增多 ,报告 的 边际 信 
息 价 值 递减 ， 对 真正 可 疑 交 易 行为 的 发 现 几率 趋 于 降低 。 等 到 最 后 狼 真 的 来 了 时 ， 人 
们 已 经 对 事情 置 若 圈 闻 了 ， 所 以 注定 要 成 为 狼 的 盘 中 之 餐 。” 

“ 徐 教授 ,我 对 这 个 问题 比较 好 奇 : 当时 的 美国 银行 是 根据 什么 方法 判断 出 来 那 
些 恐 怖 分 子 的 可 疑 行 为 的 呢 ?”” 马 处 长 间 。 
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徐 教授 : “从 以 交易 为 导向 的 数据 观 转变 为 以 对 象 ( 人 或 组 织 ) 为 导向 的 数据 观 ， 
美国 的 FAIS 系统 综合 使 用 了 人 工 智 能 技术 和 基于 案例 的 推理 、 黑 板 等 技术 制定 出 来 
了 336 条 规则 。 美 国 银行 的 每 一 笔 交 易 、 每 一 个 对 象 、 每 一 个 账户 都 要 用 336 条 规则 
去 测试 ， 每 条 规则 都 对 这 些 交 易 、 对 象 、 账 户 给 出 非法 或 合法 的 判定 依据 ， 最 后 对 每 
一 个 项 目的 可 疑 性 进行 评定 。” 


“ 徐 教授 ， 你 刚 讲 在 911 事件 中 恐怖 分 子 以 学 生 身份 进入 美国 , 但 是 他 们 的 银行 
行为 记录 不 符合 学 生 的 特征 。 我 想 问 的 是 ， 在 甄别 洗钱 犯罪 行为 时 ， 对 这 个 银行 的 转 
账 等 特征 提取 是 不 是 非常 关键 ? ” 马 处 长 道 出 了 自己 的 困惑 。 


“这 个 问题 问 得 非常 好 。 洗钱 者 笋 费 苦心 地 掩饰 其 资金 的 非法 性 质 和 来 源 ， 使 之 
混同 于 合法 资金 ， 并 模糊 重 核 和 审计 的 线索 ,他们 不 会 优先 考虑 成 本 和 效益 ， 也 不 以 
追求 利润 最 大 化 和 节省 费用 为 目标 。 洗钱 是 一 种 非 理 性 的 经 济 活动 ， 因 而 必然 表现 出 
不 同 于 正常 理性 的 经 济 活动 的 征 。” 顿 了 顿 后 ， 徐 教授 接着 说 道 : “可 疑 洗钱 行为 在 
金额 维度 上 表现 为 交易 金额 异常 增 大 和 近似 等 额 两 个 特点 , 在 时 间 维 度 上 则 表现 为 交 
易 频 率 的 异常 变化 。 当 账户 被 洗钱 分 子 用 于 洗钱 目的 时 ， 势 必要 增加 交易 的 频次 。 虽 
然 这 些 交 易 变 化 对 于 账户 而 言 并 不 一 定 是 不 正常 的 , 但 是 ， 如 果 这 些 交 易 的 频次 偏离 
了 账户 的 正常 交易 行为 模式 ， 就 值得 引起 我 们 的 注意 。” 


“ 徐 教授 ,要 了 解 这 些 账 户 消费 行为 以 洞察 洗钱 犯罪 活动 ， 需 要 知道 哪些 数据 有 
助 于 我 们 进行 反 洗钱 活动 呢 ? 除 了 你 刚 介 绍 的 交易 金额 、 交 易 频 率 等 数据 之 外 。” 台 
下 一 个 学 员 问 道 。 

“根据 不 同 的 数据 挖掘 思路 和 方法 ， 需 要 的 数据 有 一 定 的 差别 。 总 的 来 说 ， 有 一 
些 数据 是 都 需要 的 ， 比 如 前 面 我 们 说 的 交易 金额 、 交 易 次 数 。 此 外 账户 日 常 交 易 的 信 
息 ， 比 如 账号 、 交 易 时 间 、 交 易 名 称 、 公 司 名 称 、 企 业 行 业 代码 、 企 业 性 质 等 字段 都 
可 以 作为 可 疑 洗 钱 行为 模式 识别 的 研究 属性 。 此 外 ,在 有 些 方法 中 还 会 考虑 一 些 其 他 
字段 ， 比 如 上 述 交 易 行为 字段 再 构造 出 的 新 变量 、 账 户 企业 的 信用 等 级 、 注 册 资 金 等 
账户 属性 ， 也 可 以 用 来 研究 可 疑 洗钱 行为 模式 识别 。 比 如 有 研究 表明 ， 对 企业 类 客户 
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而 言 ， 其 交易 可 疑 与 否 与 交易 次 数 和 交易 金额 直接 相关 之 外 ， 同 时 还 与 企业 的 经 济 性 
质 、 注 册 资金 和 信用 等 级 相关 。” 徐 教授 解释 道 。 


“ 徐 教授 ， 我 知道 有 了 这 些 数 据 之 后 ， 必 须 进行 一 些 数据 预 处 理工 作 来 防止 “ 垃 
圾 进 垃圾 出 ”， 以 保证 数据 的 质量 。 比 如 数据 中 的 重复 性 信息 、 缺 失 值 的 替换 、 源 数 
据 的 分 布 特征 等 探索 性 工作 。 在 进行 完 数据 前 期 准备 工作 之 后 ， 就 可 以 用 具体 的 数据 
挖掘 手段 来 解决 问题 了 。 我 的 问题 出 来 了 ,在 反 洗 钱 活动 中 可 以 使 用 的 数据 挖掘 方法 
有 哪些 呢 ? ”下 面 一 个 学 员 问 道 。 


“呵呵 ， 今 天 的 这 个 课 上 着 上 着 越 像 “ 你 问 我 答 ” 了 。 关 于 这 个 问题 ， 结 合 前 面 
的 学 习 ， 有 没有 谁 先 表达 一 下 自己 的 意见 ? ” 徐 教授 笑 着 说 道 。 


这 时 ， 马 处 长 站 起 来 说 道 :4 “ 那 我 就 先 说 一 下 ; 根据 已 知 可 疑 行为 模式 和 不 可 疑 
行为 模式 的 历史 信息 ， 运 用 回归 分 析 等 预测 技术 来 建立 预测 模型 ,计算 任何 新 进入 账 
户 的 行为 可 疑 概率 。 这 是 我 自己 的 一 点 浅薄 意见 ， 可 能 不 是 很 成 熟 ， 大 家 见笑 了 。” 

徐 教授 点 评 道 : “回答 的 不 错 ， 是 个 解决 思路 。 但 是 ， 预 测 模型 要 求 用 已 知 洗钱 
和 非 洗钱 行为 模式 的 历史 数据 作为 训练 样本 ， 但 这 正 是 许多 机 构 所 欠缺 的 。 还 有 谁 起 
分 享 一 下 自己 的 看 法 ? ” 

徐 教授 刚 说 完 ， 李 经 理 便 自告奋勇 地 站 起 来 说 道 : “前 面 我 记得 徐 教授 讲 过 一 名 
话 ,说 神经 网 络 可 以 用 来 预测 也 可 以 用 来 分 类 。 所 以 我 想 是 不 是 可 以 将 银行 账号 通过 
神经 网 络 进行 分 类 呢 ? 将 所 有 人 贴 上 标签 ， 分 为 正常 的 和 可 疑 的 两 种 。” 

之 后 ， 徐 教授 点 评 地 说 道 : “回答 的 不 错 ， 对 于 不 完整 信息 、 错 误 、 不 准确 信息 
的 高 维 数据 集 ， 神 经 网 络 毫 无 疑问 成 为 了 有 用 的 、 抗 噪声 干扰 的 统计 模型 ， 具 有 显著 
的 拟 合 观测 数据 的 能 力 。” 

听 完 徐 教授 的 介绍 ， 李 经 理 钢 而 不 舍 地 追问 道 : “具体 通过 神经 网 络 怎么 实现 我 
还 不 晓得 ， 看 徐 教授 能 不 能 通过 一 种 神经 网 络 方法 介绍 一 下 。” 

徐 教授 回答 道 : “ 那 就 给 大 家 说 一 种 神经 网 络 方法 ; 径 向 基 神 经 网 络 。 在 径 向 基 
神经 网 络 中 仅 包含 一 个 隐 含 层 ， 隐 层 神经 元 采用 径 向 基本 数 作为 其 输出 特征 ， 径 向 基 
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是 一 种 非 线性 映射 ， 输 入 层 到 隐 层 的 权重 值 均 固定 为 1， 输 出 节点 为 线性 求 和 的 神经 
元 , 隐 层 到 输出 层 的 节点 之 间 的 权重 可 以 调节 , 输出 层 为 隐 层 节点 的 加 权 求 和 。 总 之 ， 
径 向 基 神 经 网 络 就 是 将 原始 的 线性 不 可 分 的 特征 空间 变换 到 另 一 个 空间 , 通过 合理 选 
择 这 个 变换 , 使 得 在 新 空间 中 原 问题 线性 可 分 , 最 后 利用 这 个 线性 神经 元 来 解决 问题 。 
根据 数据 分 块 的 调整 、 多 次 隐 层 节点 的 变化 尝试 以 及 各 种 不 同 的 可 变 参数 设置 ， 利 用 
模型 的 误 分 率 来 选择 合适 的 神经 网 络 方法 。 遗憾 的 是 不 能 给 出 明确 的 函数 结构 或 者 规 
则 ， 只 能 将 整个 神经 网 络 建 模 流程 作为 黑匣子 来 使 用 。 在 反 洗 钱 的 数据 挖掘 应 用 中 ， 
还 有 谁 能 说 一 下 具体 的 方法 ? ” 


“既然 李 经 理 刚才 说 的 神经 网 络 进行 洗钱 犯罪 行为 侦查 ， 采 用 的 是 分 类 技术 。 那 
前 面 学 习 的 决策 树 也 可 以 用 来 分 类 ， 根 据 历 史 数据 ， 为 每 个 数据 对 象 加 上 分 类 标签 ， 
使 其 成 为 训练 数据 集 ， 并 采集 与 其 相关 的 属性 值 ， 选 择 一 个 启发 式 规则 或 统计 度量 ， 
如 信息 增益 或 基尼 系数 ,将 训练 集 进行 反复 分 又 训练 ， 直 至 分 又 后 的 训练 集 类 别 与 事 
实 分 类 一 致 为 止 。 经 过 训练 后 建立 分 类 模型 ， 就 可 以 对 新 进入 的 其 他 数据 进行 分 类 ， 


-185- 


以 判断 其 是 否 可 疑 。 所 以 按照 这 个 推理 ， 决 策 树 也 是 可 以 用 在 洗钱 侦查 识别 中 的 。” 
台 下 的 章 主任 也 信心 满 满 地 说 道 。 


“呵呵 ， 风 辑 推理 能 力 非常 好 。 还 有 人 有 不 同 的 看 法 没 ? ” 


“ 徐 教授 ,洗钱 的 话 ， 这 个 转账 方 和 接受 转账 方 之 间 的 交易 行为 应 该 在 一 定时 期 
内 是 有 一 定 固定 性 的 。 比 如 贪污 的 钱 汇 给 自己 在 国外 儿子 〈 或 者 假名 ) 的 账户 等 。 能 
和 否 通过 观察 这 些 交易 链 来 打击 洗钱 活动 呢 ? ” 


“这 个 思路 很 独特 ， 非 常 好 。 你 说 的 这 个 技术 叫 链接 分 析 ， 对 反 洗 钱 金 融 大 额 交 
易 数 据 进 行 分 析 ， 从 而 找到 有 交易 链接 关系 的 可 疑 金融 交易 数据 。 为 了 得 到 更 好 的 数 
据 挖掘 模型 ， 对 源 数据 进行 探索 性 分 析 ， 了 解 基本 分 布 特征 。 通 过 链接 分 析 ， 交 易 双 
方 作 为 连接 节点 ， 以 交易 先后 时 间 确 定 资金 流动 方向 ， 根 据 交 易 频繁 度 ， 确 定 异 常 的 
交易 链 。” 

经 过 徐 教授 的 肯定 ， 大 家 都 对 前 面 自己 学 习 的 效果 有 了 一 定 把 握 ， 感 觉 到 自身 的 
收获 ， 都 非常 高 兴 。 


徐 教授 也 高 兴 地 说 道 : “有 了 这 个 武器 ， 必 然 会 给 洗钱 犯罪 活动 投下 一 枚 炸弹 。 
下 面 我 再 说 一 种 方法 : 聚 类 。 聚 类 是 将 研究 对 象 的 集合 进行 分 组 ， 形 成 由 类 似 对 象 组 
成 多 个 类 别 的 过 程 。 在 研究 中 ， 划 分 到 同一 类 的 对 象 就 是 同类 ， 没 有 分 到 同一 类 的 就 
是 异类 。 在 可 疑 洗钱 行为 模式 识别 中 ， 被 分 到 不 同类 的 也 可 能 是 同类 ， 那 些 分 类 中 的 
孤立 点 才 是 真正 的 研究 对 象 。 在 大 多 数 情况 下 ， 孤 立 点 的 判断 标准 是 隐 含 的 ， 不 能 轻 
易 地 从 聚 类 过 程 中 推导 出 来 。 说 慎 选 择 警 兆 指标 ， 使 用 基于 距离 的 聚 类 算法 和 基于 网 
格 的 聚 类 算法 来 识别 可 疑 洗钱 行为 模式 ， 这样 就 能 区 分 出 正常 与 可 疑 ， 而 不 是 简单 地 
区 别 正常 与 异常 。” 


“ 徐 教授 ， 这 里 你 提 到 两 种 聚 类 方法 : 基于 距离 的 和 基于 网 格 的 。 这 两 种 方法 在 
实际 应 用 中 各 有 什么 优势 呢 ? ” 


“基于 距离 的 聚 类 方法 优势 在 于 该 算法 不 需要 预先 设 定 通 的 个 数 、 比 较 容 易 实 
现 、 时 间 复 杂 度 较 低 且 可 以 处 理 海量 交易 数据 ， 可 以 用 来 解决 偶然 行为 识别 ;而 对 惯 


-= 


第 6 章 数据 挖掘 在 税务 、 金 融 行业 的 应 用 


常 可 疑 行为 模式 的 识别 ， 则 选取 具有 较 强 包容 性 的 网 格 聚 类 算法 ， 因 为 它 不 需要 预先 
设 定 复 的 数量 、 能 发 现任 何 形状 的 筷 、 不 受 噪声 影响 。 此 外 ， 基 于 网 格 的 聚 类 方法 能 
从 分 析 结 果 中 过 滤 处 于 稠密 区 域 的 大 量 主体 数据 , 只 以 剩 下 的 高 离 群 度 的 数据 作为 基 
础 挖掘 数据 ， 可 以 有 效 地 减少 计算 量 ， 提 高 计算 效率 。” 


“结合 徐 教授 的 聚 类 方法 , 现在 我 们 的 反 洗 钱 数据 挖掘 技术 的 能 量 肯定 是 导弹 级 
别 了 ”， 刘 经 理 幽默 地 说 完 后 ， 台 下 学 员 也 跟着 笑 了 起 来 。 


“ 徐 教授 ， 我 还 有 最 后 一 个 问题 。 通 过 刚才 讨论 学 习 ， 我 们 已 经 知道 建立 分 类 模 
型 的 方法 了 ， 比 如 神经 网 络 、 决 策 树 等 。 那 我 们 怎么 检验 这 个 模型 就 是 合理 的 呢 ? ” 
台 下 有 人 问 道 。 
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徐 教授 回答 说 : “这 就 涉及 到 模型 的 评估 问题 , 针对 模型 进行 评估 ， 有 很 多 指标 。 
比如 可 以 检测 模型 目标 变量 的 提升 曲线 ， 如 果 提 升 曲 线 是 递减 的 说 明 模型 是 有 效 的 ， 
在 有 效 的 前 提 下 ， 提 升 率 越 高 的 曲线 代表 了 模型 的 拟 合 度 越 高 。” 


在 本 节 课 的 最 后 ， 徐 教授 强调 : “任何 一 种 方法 都 有 一 定 的 使 用 范围 和 局 限 性 。 
在 反 洗 钱 中 应 用 数据 挖掘 技术 ， 我 们 更 倾向 于 找 出 可 以 发 现 刻意 交易 相关 信息 的 方 
法 ， 不 在 于 给 出 一 个 绝对 可 以 使 用 的 结果 。” 


6.3 ”股票 指数 追踪 


今天 马 处 长 和 徐 教授 在 路 上 一 直 在 讨论 ， 不 时 听 到 他 们 爽朗 的 笑 声 。 好奇 心 比较 
重 的 李 部 长 看 见 他 们 进 了 教室 ， 赶 快 摆手 招呼 马 处 长 过 来 。 


马 处 长 微笑 着 走 过 去 ， 拍 下 李 部 长 的 肩膀 说 : “ 老 李 ， 又 看 昨天 新 闻 报 了 ? 是 不 
是 谷歌 又 逃税 了 ? ” 


因为 上 次 李 部 长 看 “过 期 手机 报 ” 事件 而 受到 马 处 长 的 取笑 , 他 并 没有 感觉 克 傣 。 
而 是 幽 黑 地 说 : “我 又 “ 温 故 而 知 新 ”一 次 ， 哈 哈 ， 老 马 你 和 徐 教授 在 路 上 讨论 什么 
呢 ?” 


马 处 长 故意 装 神秘 地 说 : “秘密 ! ” 
看 到 李 部 长 胃口 吊 起 来 了 ， 马 处 长 依旧 用 神秘 的 语气 说 : “指数 追踪 ! ” 
由 于 马 处 长 声音 小 ， 李 部 长 没 听 清 楚 ， 说 : “性 海 追踪 ? ! ” 


李 部 长 的 声音 可 不 小 ， 车 得 大 家 一 阵 大 笑 ， 被 讲台 上 徐 教授 听 到 了 ， 说 : “我 和 
马 处 长 可 没 看 电影 “ 碍 海 追踪 ”， 我 们 讨论 的 是 股票 指数 追踪 ! ” 


“指数 追踪 ? 你 俩 追踪 谁 ”” 李 部 长 丈 二 和 尚 摸 不 着 头脑 ， 继 续 问 。 
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“我 们 俩 讨论 用 数据 挖掘 技术 进行 股票 指数 追踪 呢 ， 没 有 干什么 不 正当 的 “追踪 
勾当 ”， 了 哈哈 ! ” 


“指数 追踪 嘛 ， 我 知道 ， 很 有 意思 哦 ! ” 李 部 长 装 作 知道 指数 追踪 ， 给 自己 找 了 
台阶 下 。 


“有 谁 能 说 下 指数 追踪 的 概念 ? ”人 徐 教授 问 。 


“指数 追踪 是 指 用 资本 市 场 上 若干 个 金融 资产 的 组 合 来 追踪 市 场 上 某 一 指数 的 
表现 。” 马 处 长 把 刚 在 路 上 跟 徐 教授 学 的 东西 说 给 了 大 家 。 


“指数 追踪 的 原理 是 怎样 的 ? ”有 人 问 。 


“指数 追踪 是 指 通过 利用 一 个 股票 组 合 复制 某 一 现实 指数 或 者 虚拟 指数 的 市 场 
表现 ， 来 获取 与 指数 相近 的 收益 ， 试 图 最 小 化 跟踪 误差 。 通 常 来 说 ， 一 般 的 指数 追踪 
技术 关注 于 最 小 化 跟踪 误差 的 方差 ， 并 考虑 组 合 收益 与 标的 指数 收益 的 相关 性 ， 或 者 
是 组 合 调整 的 交易 成 本 最 小 化 。” 


“ 哦 ， 这 么 说 指数 追踪 是 比较 困难 的 唆 ! ” 台 下 有 人 说 。 


“市 场 上 的 股票 指数 往往 包含 几 百 上 千 种 股票 ， 即 便 是 以 市 场 指数 为 参考 ， 想 要 
以 有 限 资金 按照 股票 指数 的 构成 比例 购买 所 有 的 股票 , 来 追踪 其 波动 的 确 是 非常 困难 
的 。” 

“有 什么 方法 来 解决 这 个 问题 呢 ? ” 李 部 长 问 。 

“ 那 下 面 就 要 提 下 指数 组 合 优化 了 ! 指数 组 合 优化 是 通过 权重 的 优化 再 配置 来 寻 
找 一 个 含有 “部 分 ”成 分 证 券 的 最 优 的 追踪 组 合 , 所 谓 的 “最 优 ” 就 是 使 得 该 组 合 相 
对 标的 指数 的 追踪 误差 最 小 或 其 他 事先 设 定 的 标准 最 优 。 其 目的 在 于 复制 与 该 指数 同 
样 收益 水 平 的 一 个 投资 组 合 , 实现 组 合 收益 与 指数 涨 跌 基 本 一 致 。” 徐 教授 说 。 

“ 哦 ， 原 来 是 这 样 ! ” 
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“因此 , 研究 具有 高 精度 、 低 交易 成 本 、 且 能 保证 追踪 组 合 的 高 流动 性 的 指数 追 
踪 技 术 有 重要 的 意义 。 目 前 ,指数 追踪 技术 主要 分 为 两 大 类 ， 即 完全 复制 和 不 完全 复 
制 。” 徐 教授 接着 讲 。 


“完全 复制 ? ”有 人 疑问 。 


际 教 授 解 释 说 : “完全 复制 是 指 通过 按照 目标 指数 成 分 证 券 在 目标 指数 所 占 权 重 
来 购买 所 有 成 分 证 em 构建 追踪 组 合 对 指数 进行 追踪 ， 这 种 方法 由 于 成 本 高 ， 管 理 复 
杂 ， 一 般 很 少 用 到 。” 


“那么 来 说 ， 完 全 复制 具有 很 高 的 精度 唆 ! ” 孔 部 长 说 。 


徐 教授 说 : “是 的 ， 从 理论 上 讲 ， 如 果 采 用 完全 复制 的 策略 应 该 不 会 存在 追踪 误 
差 ， 但 是 实际 中 并 非 如 此 ， 例 如 ， 当 标的 指数 的 构成 发 生变 化 时 ， 该 指数 假设 所 有 股 
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票 在 理论 组 合 中 的 权重 能 够 自动 实现 。 然 而 ， 指 数 基 金 经 理 并 不 能 这 样 假设 ， 他 们 需 
要 对 股票 的 权重 进行 现实 调整 以 达到 模拟 指数 的 目的 。” 

“ 那 不 完 全 复制 肯定 就 是 从 证 券 样本 中 抽取 一 部 分 来 进行 分 析 了 。” 李 部 长 凭借 
自己 聪慧 的 脑 瓜 在 大 家 面前 内 光 了 一 下 。 


徐 教授 说 : “不 错 ! 不 完全 复制 是 指 通过 利用 所 有 成 分 证 券 的 子 集中 包含 的 证 券 
按照 一 定 比例 构成 的 组 合 来 追踪 指数 ， 包 括 优化 复制 和 分 层 抽 样 复 制 。” 


“优化 复制 ? 这么 多 新 词 啊 ! ” 


徐 教授 接着 说 : “优化 复制 是 直接 用 优化 方法 确定 进入 追踪 组 合 内 的 成 分 证 券 及 
其 投资 权重 ， 而 分 层 抽样 复制 则 是 先 按 行业 、 流 通 市 值 、 换 手 率 等 指标 人 为 确定 进入 
追踪 组 合 的 证 券 , 再 通过 优化 方法 来 确定 各 成 分 证 券 的 权重 , 从 而 有 效 改 善 追踪 误差 ， 
提高 追踪 精度 。 依据 经 验 的 分 层 抽样 确定 的 追踪 组 合 在 样本 内 外 追踪 效果 并 不 一 定 很 
好 ， 因 此 ， 优 化 复制 技术 得 到 了 研究 者 和 实际 工作 者 的 青睐 。” 


“这 个 可 以 理解 。” 

“对 指数 追踪 的 研究 尽管 丰富 ， 但 大 多 数 研究 角度 都 是 基于 样本 内 追踪 误差 最 
小 ,然后 假设 市 场 是 有 效 的 ， 因 此 认为 依据 样本 内 经 验 风险 最 小 构建 的 追踪 组 合 在 样 
本 外 的 追踪 误差 也 是 最 小 的 。” 

“指数 追踪 具体 都 有 哪些 方法 ? ” 李 部 长 再 次 扮演 了 一 个 爱问 问题 的 角色 。 

徐 教授 说 : “指数 追踪 技术 大 致 可 以 分 为 四 种 ， 首 先是 基于 优化 方法 的 指数 追踪 
技术 ， 第 二 个 是 基于 协 整 的 经 典 指数 追踪 ， 第 三 个 是 基于 协 整 的 增强 型 指数 追踪 ， 第 
四 种 就 是 基于 协 整 的 多 头 / 空 头 统计 套利 策略 。” 

“ 那 您 给 讲 个 较为 简单 而 且 常 见 的 指数 追踪 技术 吧 。” 孔 部 长 一 边 详细 做 笔记 ， 
一 边 说 。 
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徐 教授 看 到 大 家 对 知识 的 渴望 ， 说 : “好 ， 通 常 的 指数 追踪 技术 一 般 采 用 优化 方 
法 ， 最 为 常见 的 是 TEV (追踪 误差 方差 ) 最 小 化 模型 。 可 以 用 大 屏幕 显示 的 数学 公式 
来 表达 ， 请 看 大 屏幕 。” 


， 
pins = DoH 
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徐 教授 解释 说 : “其 中 ， 左 端的 r 是 在 t 时 刻 的 指数 对 数 收益 率 ， 而 是 k 股票 在 
t 时 刻 的 对 数 收益 率 ， 是 持仓 权重 ， 而 代表 追踪 误差 ， 一 般 的 优化 方法 就 是 在 约束 条 
件 一 一 跟踪 误差 期 望 等 于 0 和 股票 权重 和 等 于 1 的 条 件 下 , 利用 数值 方法 使 得 跟踪 误 
差 的 方差 最 小 化 。” 


“不 错 ， 这 个 方法 比较 容易 理解 。” 


“但 是 这 个 方法 还 是 存在 诸多 不 足 的 , 例如 该 优化 方法 在 被 动 投资 中 的 缺点 比较 
显著 ， 首 先 ， 股 票 指数 是 组 合 内 股票 的 一 个 线性 组 合 ， 针 对 股票 指数 追踪 误差 最 小 化 
的 过 程 中 包含 了 许多 噪音 ， 依 赖 于 样本 数据 。” 


“ 哦 ， 是 的 ， 这 个 指数 追踪 方法 应 该 在 高 波动 的 市 场 中 极 不 稳定 。” 马 处 长 补充 
说 。 


徐 教授 继续 说 : “其 次 ， 由 于 采用 了 相关 系数 来 衡量 协同 波动 ， 存 在 以 下 不 足 : 
首先 ， 只 能 用 平稳 数据 ， 如 股票 收益 率 ， 由 于 股票 价格 的 差分 序列 损失 了 一 些 有 用 信 
息 ; 其 次 ， 这 只 是 一 个 短期 的 统计 量 ， 缺 乏 稳定 性 ; 第 三 ， 依 赖 于 估计 模型 ， 相 关系 
数 易于 受到 异常 值 、 非 平稳 序列 或 是 波动 率 聚 集 的 影响 ,因此 在 长 期 时 间 序 列 中 可 能 
会 得 出 错误 的 结论 。” 


“针对 这 个 方法 存在 这 样 或 者 那样 的 问题 ， 还 有 没有 其 他 较 好 的 方法 ? ” 马 处 长 
问 道 。 


徐 教授 回答 说 : “比如 有 人 研究 提出 了 基于 L1 正则 化 的 优化 复制 技术 来 实现 最 
佳 不 完全 复制 的 指数 追踪 问题 ， 并 应 用 到 实际 中 去 。” 
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这 时 ， 证 券 基 金 的 方 科 长 说 道 : “这 个 方法 我 们 部 门 的 人 用 过 ， 这 个 方法 也 是 采 
用 优化 抽样 复制 技术 ,比如 从 NN 支 标的 指数 的 成 分 股票 中 选 出 k 支 股票 构建 一 个 投资 
组 合 ， 并 使 得 该 组 合 相 对 标的 指数 的 一 些 考核 标准 最 优 。” 


方 科 长 顿 了 顿 ， 接 着 说 : “但 是 ， 基 于 L1l 理论 发 展 出 的 指数 追踪 方法 选取 的 股 
票 支 数 还 比较 多 ， 投 资 管理 中 难以 操作 。” 


徐 教授 解释 道 : “果然 是 内 行 ， 讲 的 知识 点 都 比较 细致 。 你 说 得 很 有 道理 ， 为 应 
对 这 个 缺陷 ， 我 们 独特 性 地 提出 L12 正则 化 的 稀 玻 指数 跟踪 模型 ， 在 不 降低 追踪 精 
度 的 情况 下 ， 选 取 的 股票 支 数 更 少 。” 


方 科 长 接着 说 : “ 徐 老师 ，L1/2 正则 化 模型 我 可 是 头 一 回 听 说 。 对 比 工 1 正则 化 
方法 解决 指数 追踪 问题 ，L1/2 正则 化 有 什么 优势 呢 ? ” 


徐 教授 回答 道 : “最 近 的 研究 表明 ，Lq (0<q<1) 正则 化 问题 是 非 凸 的 、 非 光滑 
的 、 难 解 的 ，q 越 小 ， 其 解 越 稀疏 ， 但 当 q<1/2 后 ， 稀 疏 性 改变 地 不 太 明 显 了 ， 也 就 
是 说 L1/2 是 Lq (0<q<1) 的 典型 代表 。 而 且 对 工 1/2 正则 化 模型 ， 我 们 还 构造 了 非常 
强大 的 从 代 阅 值 的 算法 。 它 可 以 用 最 少 的 股票 来 追踪 目标 指数 变化 ， 它 比 L1 正则 化 
方法 具有 更 好 的 稀疏 性 。” 


这 时 ， 台 下 的 马 处 长 激动 地 拍 了 一 下 手 ， 站 起 来 说 道 ， “ 徐 教授 ， 我 想起 来 了 。 
之 前 看 一 个 新 闻 说 您 参加 2010 国际 数学 家 大 会 ， 所 做 的 报告 中 重要 的 一 部 分 就 是 
L1/2 正则 化 理论 。” 

看 徐 教授 笑 着 默认 了 ， 大 家 都 很 激动 。 

有 学 员 站 起 来 说 道 : “ 徐 教授 ， 您 真是 太 让 我 们 敬仰 了 。 能 研究 出 这 么 独创 性 的 
理论 ， 我 相信 ， 这 个 LI1/2 正则 化 方法 应 用 在 股票 指数 追踪 中 效果 肯定 是 非常 好 的 。” 

徐 教授 谦虚 地 说 道 : “实践 是 检验 真理 的 唯一 标准 。 针 对 香港 恒生 指数 、 英 国 时 
报 指数 、 美 国标 准 普 尔 指数 等 股票 组 合 进行 了 成 功 的 指数 跟踪 测试 。 试 验 表 明 ，L1/2 
模型 可 以 有 效 地 解决 指数 跟踪 问题 ， 保 证 较 高 的 预测 跟踪 性 。” 


-N99= 


美国 标准 普尔 指数 英国 时 报 指数 
用 [7 
i 这 

100 200 0 10 1 20 250 


时 间 ( 周 ) 


第 7 章 数据 挖掘 在 故障 诊断 中 的 应 用 


本 节 课 一 开始 ， 徐 教授 上 讲台 便 开 口 道 : “ 先 给 大 伙 讲 个 故事 。 话说 某 厂 的 大 型 
电机 坏 了 ， 厂 内 技术 人 员 都 不 知道 毛病 出 在 哪里 。 怎 么 办 呀 ?” 


“请 外 援 高 手 吧 ! ” 台 下 一 个 学 员 出 了 个 主意 。 


徐 教 授 接着 讲 : “ 厂 长 无 奈 只 好 联系 生产 厂家 ,对方 推 荐 了 一 个 有 经 验 的 老 工程 
师 。 工 程 师 说 要 一 千 美元 ， 厂 长 正 着 急 ， 就 答应 了 。 工 程 师 用 仪表 测 了 一 会 儿 ， 然 后 
拿 起 粉笔 在 电机 的 菜 位 置 画 了 一 个 圈 圈 ， 说 问题 就 在 这 里 ， 最 后 证 明确 实 如 此 …*…” 


数据 挖 所 


“这 年 头 画 圆 图 的 都 是 高 人 ， 邓 小 平 也 是 在 南方 面 了 一 个 疾 。” 台 下 一 个 人 插话 
道 。 


徐 教授 笑 着 说 : “设备 修好 了 ， 工 程 师 找 厂 长 要 钱 。 厂 长 看 他 只 是 那么 轻松 地 画 
了 个 圆圈 就 要 拿 走 一 千 美 元 ， 感 到 实在 舍不得 。 但 是 又 不 好 反悔 ， 就 让 工程 师 列 个 维 
修 清单 出 来 ， 想 难为 他 ， 人 迫使 他 降价 。” 


“ 列 什么 清单 ， 纯 技术 活 ， 没 有 维修 材料 ， 怎 么 列 ， 就 是 想 赖账 ! ”有 人 愤愤 道 。 


徐 教授 说 : “工程 师 的 维修 清单 : 1) 用 粉笔 画 圆 轿 ，1 美元 ，《〈2) 知道 在 哪 
里 画 ，999 美元 。” 


听 完 徐 教授 的 话 ， 大 家 都 笑 了 。 
“果然 够 聪明 ， 难 怪 能 成 为 大 牛 。” 台 下 的 学 员 感 叹 道 。 


于 是 , 徐 教授 趁 热 打铁 说 :“ 今 天 要 给 大 家 讲 的 内 容 就 是 如 何 利 用 数据 挖掘 技术 ， 
进行 故障 诊断 ， 为 企业 少 花 这 999 美元 。” 


7.1 火箭 发 动机 故障 诊断 


徐 教授 直 奔 主题 ， 说 : “在 讲 火箭 发 动机 故障 诊断 之 前 ， 我 先 问 大 家 一 个 问题 。 
在 中 国 被 称 为 飞天 第 一 人 的 是 谁 ? ” 


“杨利伟 ! 地 球 人 都 知道 ! ” 台 下 有 人 回应 到 。 
“这 个 ……， 还 真 不 是 ! ” 徐 教授 故意 拉 长 声音 。 
“ 那 是 谁 呢 ? ”很 多 人 齐 声 问 道 。 

“万 户 ! ” 徐 教授 一 边 说 一 边 打开 大 屏幕 。 
“万 户 ? 这 个 还 真 没 听 说 过 。” 马 处 长 感到 惊讶 。 
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徐 教授 扶 了 扶 眼镜 ， 接 着 说 : “既然 都 没 听 说 过 ， 我 就 给 大 家 普及 下 ， 讲 一 下 万 
户 飞 天 的 故事 。” 
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大 家 一 听 到 要 讲 故事 ， 都 来 了 精神 。 


“ 明 朝 初期 ， 有 一 位 木匠 出 身 的 官吏 万 户 ， 做 出 了 一 份 详尽 的 计划 ， 他 认为 按照 
他 的 设想 ， 一 定 能 在 一 个 时 间 段 内 飞 到 月 亮 上 去 。 在 这 个 理想 主义 者 的 思维 世界 里 ， 
月 亮 上 是 没有 人 心 险 恶 的 ……” 徐 教授 讲 道 。 


“因为 月 亮 留 下 太 多 美好 传说 了 ! ” 台 下 有 人 小 声 说 。 


徐 教授 脸 上 微 露 沉重 的 表情 ， 大 家 赶紧 静 下 来 ， 徐 教授 接着 说 : “他 先 点 燃 “ 鸟 
尾 ” 引线 ， 一 瞬间 ， 火 箭 尾 部 喷 火 、“ 飞 鸟 ”离开 山头 向 前 冲 去 。 接 着 万 户 的 两 只 脚 
下 也 喷 出 火焰 ，“ 飞 岛 ” 随 即 又 神 向 半空 ， 栽 了 下 去 。 万 户 虽 然 失败 了 ， 但 是 他 对 飞 
天 的 探索 确实 是 第 一 人 ， 万 户 被 认为 是 人 类 的 航天 鼻祖 。” 


“万 户 那 时 候 就 开始 研究 火箭 了 ， 真 是 厉害 ! ” 马 处 长 甚 感 诈 异 。 


徐 教授 说 :“ 人 们 对 挣脱 地 球 引力 束缚 的 欲望 一 直 很 强烈 。 随 着 科学 技术 的 发 展 ， 
火箭 技术 也 变 得 越 来 越 成 熟 了 ， 但 是 同时 由 于 各 种 故障 ， 很 多 人 都 为 飞天 事业 献 出 了 
宝贵 的 生命 。” 


“飞天 是 全 人 类 的 梦想 ! 挫折 再 多 也 不 能 停止 前 进 的 步伐 ! ” 李 部 长 情绪 激昂 
说 。 

徐 教 授 说 : “对 ， 不 能 停息 。 但 我 们 不 能 忘记 人 类 为 此 而 付出 的 沉重 代价 ; 从 
1959 年 8 月 21 日 美国 发 射 水 星 号 航天 器 到 2006 年 底 ， 在 美国 及 前 苏联 /俄罗斯 进行 
的 249 次 载 人 航天 发 射 飞行 中 ， 共 出 现 故 障 166 起 ， 其 中 最 严重 的 $ 次 载 人 航天 事故 
包括 : 1967 年 1 月 阿波 罗 4A 号 、1967 年 4 月 联盟 1 号 、1971 年 6 月 联盟 11 号 、1986 
年 1 月 挑战 者 号 、2002 年 哥伦比亚 号 等 事故 。 航 天 发 射 事故 造成 了 重大 的 人 员 伤亡 
和 经 济 损失 。 美国 的 统计 数据 显示 , 动力 系统 故障 占 航天 器 系统 总 故障 的 60% 以 上 。” 


李 部 长 片刻 就 明白 了 徐 教授 的 语义 ， 附 和 说 : “防微杜渐 ， 防 患 未 然 。” 
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“为 了 让 大 家 更 好 地 了 解 火箭 发 动机 故障 诊断 方法 ， 我 们 还 得 理解 一 下 火箭 原 
理 ， 这 里 以 当前 应 用 最 为 广泛 的 液体 火箭 为 例 来 说 明 ， 请 大 家 看 大 屏幕 。” 徐 教授 调 
出 了 一 张 幻灯 片 。 


“怎么 看 着 像 在 做 化 学 实验 ? ! ” 李 部 长 直爽 地 说 。 


徐 教授 详细 地 解说 道 : “火箭 的 主要 原理 可 以 用 下 面 的 部 件 描述 。1 一 氨 泵 前 阀 ; 
2 一 氧 泵 ; 3 一 氧 主 文 氏 管 ，4 一 氧 主 阀 ，5 一 氧 副 系统 旁 通 阀 ，6 一 氧 副 系 统 控制 阀 ，7 
一 燃气 发 生 器 ;8 一 气泵 涡轮 ; 9 一 氧 氨 换 热 器 10 一 氧 泵 前 阀 ，11 一 氧 隶 ， 12 一 氧 主 
文 氏 管 ，13 一 氧 主 阀 ，14 一 推力 室 ; 15 一 氧 稳 压 器 ; 16 一 氧 副 系 统 控 制 阀 ，17 一 氧 泵 
涡轮 ，18 一 排 气 管 。” 


“看 着 挺 简单 的 ， 咱 们 可 以 按 图 造 火 箭 了 ! ” 李 部 长 幽默 地 说 。 
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徐 教授 解释 道 :“ 我 建议 大 家 还 是 打消 造 火箭 的 想法 吧 , 要 不 你 就 成 为 下 一 个 “万 
户 ， 了 。， 

“如 何 才能 提前 检测 出 火箭 发 动机 故障 ， 从 而 避免 事故 的 发 生 呢 ? ”电力 公司 马 
处 长 问 。 


徐 教授 答 道 : “液体 火箭 发 动机 是 一 个 极其 复杂 的 高 能 量 释放 装置 ， 其 故障 的 发 
生 和 发 展 具有 极端 的 快速 性 和 极 大 的 破坏 性 ， 其 故障 的 表现 也 呈现 复杂 性 。 这 种 复杂 
性 体现 在 环境 干扰 的 多 样 性 、 故 障 特征 的 多 样 性 、 故 障 的 多 样 性 以 及 内 部 因素 的 耦合 
表现 出 的 很 强 的 非 线性 ， 这 给 液体 火箭 发 动机 的 故障 检测 和 诊断 带 来 了 极 大 困难 。” 


“那么 当前 一 般 采 用 哪些 方法 来 进行 故障 检测 与 诊断 呢 ? “ 马 处 长 也 表现 出 了 强 
烈 的 兴趣 。 


“常见 的 故障 检测 与 诊断 方法 主要 有 : 门限 检测 方法 、 信 号 处 理 方 法 、 专 家 系统 
方法 、 故 障 诊断 树 方法 、 模 式 识别 方法 、 模 糊 数学 诊断 方法 、 人 工 神 经 网 络 诊断 方法 
和 信息 融合 的 方法 等 。” 

“有 了 这 些 方法 ， 可 为 什么 火箭 发 动机 故障 还 是 时 有 发 生 呢 ? ” 李 部 长 问 。 

“俗话 说 ，“ 金 无 足 赤 ， 人 无 完 人 ”。 基 于 门限 检测 的 诊断 方法 由 于 随机 干扰 以 
及 各 种 瞬 态 过 渡 过 程 的 存在 , 使 得 该 方法 在 检测 故障 的 及 时 性 和 准确 性 方面 存在 一 定 
困难 ， 且 门限 值 通常 难以 选取 。” 

“ 哦 ， 原 来 是 这 样 ! ” 李 部 长 回应 道 。 

徐 教授 看 到 大 家 没什么 疑惑 了 ， 接 着 讲 : “基于 数学 模型 的 诊断 方法 对 模型 过 于 
依赖 , 对 于 参数 摄 动 、 噪声 干扰 等 都 极其 敏感 ， 从 而 诊断 结果 的 可 靠 性 不 能 严格 保证 ; 
基于 人 工 智能 的 诊断 方法 需要 足够 的 典型 故障 样本 和 先 验 知识 , 而 现实 中 发 动机 故障 
样本 很 少 ， 因 而 这 些 理论 上 很 优秀 的 方法 难以 得 到 广泛 的 应 用 。” 


本 部 长 有 点 穷 追 不 合 的 意思 ， 问 : “ 那 今天 我 们 用 数据 挖掘 的 什么 技术 来 进行 故 
障 诊断 呢 ? 
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“我 们 用 大 家 比较 熟悉 的 支撑 向 量 机 为 例 来 讲解 数据 挖 据 在 火 第 发 动机 故障 诊 
断 中 的 应 用 。” 


“为 什么 采用 支撑 向 量 机 呢 ? ”一 学 员 问 。 


徐 教授 回答 说 : “支撑 向 量 机 是 在 统计 学 习 理 论 的 基础 上 发 展 起 来 的 一 种 先进 的 
机 器 学 习 方法 。 它 通过 最 小 化 经 验 风 险 、 最 小 化 置信 区 间 的 上 界 以 及 核 函数 方法 ， 有 
效 解决 了 小 样本 、 高 维 数 和 非 线性 以 及 因 样 本 数 较 少 而 带 来 的 “过 学 习 ” 问 题 ， 克 服 
了 神经 网 络 学 习 方法 中 网 络 结构 难以 确定 和 存在 局 部 极 小 值 点 等 缺点 , 从 而 具有 良好 
的 泛 化 能 力 和 较 强 的 抗 干扰 能 力 。” 


“ 徐 老师 ， 支 撑 向 量 机 在 前 面 的 课程 里 已经 讲 过 了 ， 你 就 直接 给 讲 应 用 吧 。” 李 
部 长 提议 说 。 

徐 教授 也 有 同样 的 想法 ， 说 道 : “好 吧 。 首 先 要 选取 合适 的 故障 变量 。 大 量 的 实 
际 数据 中 无 意义 的 变量 会 严重 影响 数据 挖掘 算法 的 执行 效率 , 即 引起 维 数 灾难 。 所 以 ， 
属性 选择 是 十 分 必要 的 。 通 过 深思 熟 虑 , 我 们 从 80 多 个 测量 参数 中 选取 了 22 个 变量 ， 
其 体 名 称 见 大 屏幕 所 示 。” 


参数 名 称 符号 参数 名 称 符号 
氧 泵 转速 NWR 氧 涡轮 入 口 压力 POWR 
氧 泵 转速 NWY 氧 涡轮 入 口 压力 POWY 
氧 泵 流量 GR 氧 涡轮 出 口 压力 PEWR 
氧 录 流量 GY 燃烧 室 压力 PK 
氧 泵 入 口 压力 POY 燃烧 室 氧 喷 前 压力 PY 

氧 泵 出 口 压力 PEY 燃气 发 生 器 压力 PF 

氧 泵 出 口 温 度 TEY 发 生 器 氧 喷 前 压力 PFY 
氧 泵 入 口 压力 POR 发 生 器 氧 喷 前 压力 PFR 

氧 泵 出 口 压 力 PER 氧 泵 前 活 门 入 口 温度 。” TOHY3 
氧 泵 出 口 温 度 TER 氧 泵 前 活 门 入 口 温度 。 TOHR1 
冷却 套 出 口 压 力 PEL 氧 涡轮 氧 隔离 腔 压力 ” Pg 


“其 次 ， 对 采集 的 这 22 个 变量 的 数据 需要 认真 地 进行 数据 预 处 理 。” 徐 教授 补 
充 道 。 
马 处 长 问 : “数据 预 处 理 时 ， 如 何 对 待 虚假 数据 呢 ? ” 
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“测量 传感器 在 极端 的 物理 条 件 下 有 可 能 被 损坏 ， 使 测量 的 数据 无 效 ， 因 此 有 时 
需要 剔除 严重 错误 的 数据 。 对 于 剧烈 变化 的 数据 ， 需 分 析 是 传感器 测量 误差 还 是 真实 
发 生 了 故障 ， 若 是 传感器 故障 ， 也 就 是 我 们 所 说 的 虚假 数据 ， 则 需要 对 这 些 数据 进行 
修正 。 一 般 采 用 滑动 平均 的 方法 , 即 选取 该 点 附近 一 段 数 据 的 平均 值 作为 该 点 的 值 。” 
徐 教授 解释 说 。 

“这 个 很 好 理解 。” 台 下 有 人 回应 道 。 


徐 教授 继续 说 : “另外 ， 在 训练 集 选取 上 ， 要 保证 数据 覆盖 范围 的 全 面 性 。 对 于 
正常 或 发 生 了 同 种 类 型 故障 的 发 动机 试车 数据 , 不 同 批 次 试车 , 参数 值 可 能 都 不 相同 
甚至 差别 较 大 , 因此 在 训练 集 的 选取 上 要 尽 可 能 地 将 不 同 范围 的 数据 以 及 反映 不 同 故 
障 类 型 的 数据 样本 都 包含 进去 。” 


“ 徐 老师 ,支撑 向 量 机 是 根据 二 分 类 问题 建立 的 模型 ， 而 火 第 发 动机 故障 是 多 分 
类 问题 ， 如 何 应 用 支撑 向 量 机 处 理 多 分 类 问题 ?” 李 部 长 问 。 


徐 教授 回答 道 : “ 若 有 n 种 故障 类 型 ， 则 应 建立 n 个 不 同 的 两 类 分 类 器 ， 如 大 屏 
幕 所 示 。” 


综合 判断 与 决策 


故障 检测 和 诊断 结果 
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“ 哦 ， 如 此 复杂 ， 需 要 训练 这 么 多 的 二 分 类 器 。” 有 人 说 道 。 


“其 实 真正 应 用 时 ，n 一 般 较 小 。 在 本 次 试车 数据 挖 据 中 ， 共 有 3 种 类 型 的 稳 态 
段 故 障 模式 ， 氧 副 文 氏 管 出 现 多余 物 、 氧 涡轮 破坏 、 氧 泵 次 同步 振动 ， 加 上 正常 模式 
共 4 个 类 别 。” 徐 教授 介绍 说 。 


“ 那 就 要 形成 4 个 数据 集 ， 训 练 4 个 SVM 分 类 器 ， 是 吧 ? ” 李 部 长 说 道 。 


“是 的 ， 我 们 在 每 个 数据 集中 ， 把 属于 该 故障 的 样本 标号 设 为 -1， 其 余 样 本 的 标 
号 设 为 1， 然 后 把 每 个 数据 集 分 为 训练 数据 集 和 测试 数据 集 ， 用 训练 数据 集 进行 训练 
得 到 预测 模型 ， 然 后 用 测试 集 对 所 得 到 的 模型 进行 预测 能 力 检验 。” 徐 教授 说 。 


“检验 效果 如 何 呢 ? ” 李 部 长 问 。 


“训练 完成 后 ， 就 可 对 测试 数据 集 进行 测试 了 。 四 种 类 别 的 检测 正确 率 都 在 92% 
以 上 。” 徐 教授 说 。 


“效果 挺 不 错 嘛 ! ” 马 处 长 说 。 


徐 教授 合 上 电脑 ， 微 笑 着 说 : “这 是 个 试验 ， 只 能 起 到 “抛砖引玉 ”的 作用 ， 还 
需要 进一步 研究 才 有 可 能 在 真正 实施 中 应 用 。 今 天 的 课程 就 上 到 这 里 ， 下 次 课 见 。” 


7.2 机械 设备 故障 诊断 


这 节 课 一 开始 ， 徐 教授 先 给 大 家 讲 了 个 笑话 : “一 个 飞机 由 于 机 械 故 障 延 误 了 ， 
过 了 一 会 又 可 以 起 飞 了 。 旅 客 问 为 什么 ? 乘务 员 说 没事 ， 就 是 换 了 一 个 敢 开 的 机 长 。 
在 实际 工作 中 ， 我 们 可 真 不 敢 这 么 轻率 地 对 待机 械 故 障 ， 应 该 响应 胡 主 席 提倡 的 一 切 
以 人 为 本 。” 


台 下 另 一 个 学 员 附 和 道 : “是 啊 ， 任 何 时 候 ， 安 全 都 是 工作 中 的 重 中 之 重 。” 
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徐 教 授 看 着 台 下 的 学 员 ， 亲 切 地 说 
道 :“ 本 节 课 的 主要 内 容 为 机 械 故 障 诊断 。 
近 几 年 一 种 故障 树 分 析 法 FTA (Fault 
Tree Analysis) 逐渐 在 实际 应 用 中 流行 起 
来 。 在 座 的 诸位 中 ， 谁 先 给 我 们 说 说 对 
FTA 方法 的 认识 ?” 


鼓 风 动 力 的 王 总 率先 说 道 :“ 故 障 树 
分 析 法 是 以 设备 最 不 希望 发 生 的 事件 作 
为 分 析 目 标 ， 找 出 系统 内 因为 环境 变化 、 人 为 失误 等 因素 导致 的 部 件 与 部 件 故障 之 间 
的 逻辑 联系 ， 用 倒立 树 状 逻辑 因果 关系 图 形 表示 出 来 。” 


南航 的 陆 经 理 以 前 大 学 念书 的 时 候 主 修 的 就 是 机 械 设计 ， 说 起 FTA 方法 毫 不 费 
力 : “故障 树 是 一 种 从 系统 到 部 件 ， 再 到 零件 ， 按 “下 降 形 ”分 析 的 方法 。 它 从 系统 
开始 , 通过 由 逻辑 符号 绘制 出 的 一 个 逐渐 展开 成 的 树 状 分 枝 图 ， 来 分 析 故 障 事件 发 生 
的 概率 。 同 时 也 可 以 用 来 分 析 零 件 、 部 件 或 子 系统 故障 对 系统 故障 的 影响 。” 


听 完 陆 经 理 和 王 总 的 回答 ， 徐 教授 十 分 满意 。 为 了 帮助 大 家 更 深 地 理解 FTA 方 
法 ， 徐 教授 举 了 个 图 例 进行 说 明 : “ 它 首先 选 定 某 一 设备 故障 事件 作为 项 事件 ， 画 在 
故障 树 的 顶端 。 再 将 导致 该 故障 发 生 的 直接 原因 (各 部 件 故 障 ) 并 列 为 第 二 阶 ， 图 上 
用 “或 门 ”表示 设备 的 故障 是 由 部 件 A 或 者 部 件 B 故障 所 引起 的 ， 接 下 来 ， 将 导致 
第 二 阶 的 各 故障 事件 发 生 的 原因 分 别 并 列 为 第 三 阶 ， 如 连接 部 件 B 故障 和 元 件 1 故 
障 、 元 件 2 故障 的 是 一 个 “与 门 ”， 表 明 B 故障 是 在 元 件 1、 元 件 2 同时 失效 时 发 生 
的 。 对 各 基本 事件 赋予 先 验 概率 ， 以 表征 发 生 可 能 性 的 大 小 ， 这 样 就 可 以 应 用 故障 树 
模型 进行 可 靠 性 分 析 以 及 诊断 决策 。” 


税务 的 姚 局 长 听 完 ， 笑 着 问 : “ 徐 教授 ， 故 障 树 诊断 原理 我 听 明 白 了 。FTA 对 系 
统 故障 不 但 可 以 做 定性 的 而 且 还 可 以 做 定量 的 分 析 ; 不 仅 可 以 分 析 由 单一 构件 所 引起 
的 系统 故障 ， 而 且 也 可 以 分 析 多 个 构件 、 不 同 模式 故障 而 产生 的 系统 故障 情况 。 但 这 
个 方法 有 些 什么 缺点 呢 ?” 
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徐 教授 听 完 后 ， 概 括 回答 道 : “因为 故障 树 分 析 法 使 用 的 是 一 个 逻辑 图 ， 因 此 ， 
人 但 是 故障 树 分 析 法 也 存在 一 些 缺 
点 ， 如 在 构造 故障 树 时 要 运用 逻辑 运算 ， 在 其 未 被 一 般 分 析 人 员 充 分 掌握 的 情况 下 ， 
很 有 可 能 把 重大 影响 系统 故障 的 事件 漏 掉 ; 同时 ， 由 于 每 个 分 析 人 员 的 研究 范围 各 有 
不 同 ， 其 所 得 结论 的 可 信 性 也 就 有 所 差异 。 本 节 课 ， 我 们 就 通过 数据 挖掘 的 手段 来 解 
决 设备 故障 诊断 这 个 难题 。” 


“还 是 按照 老 规矩 ， 给 我 们 结合 实际 例子 讲 讲 吧 。” 台 下 有 人 建议 说 。 


“好 的 。 在 座 的 当中 ， fe 我 们 今天 就 以 旋转 机 为 例 进行 讨论 。 
先 问 一 下 大 家 ， 旋 转机 械 的 常见 收 障 是 什么 ” 徐 教授 启发 地 问 道 。 


“转子 不 平衡 。” 李 部 长 立刻 喊 道 。 


“ 那 引起 转子 不 平衡 的 原因 又 是 什么 呢 ? ” 徐 教授 接着 问 。 
“装配 不 规范 或 机 械 磨 损 所 致 。” 李 部 长 又 答 道 。 
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徐 教授 接着 道 : “不 错 ， 当 转子 不 平衡 时 ， 振 动 的 时 域 波形 为 正弦 波 ， 谐 波 能 量 
主要 集中 于 基 频 ， 且 工作 转速 一 定时 相位 稳定 。 此 外 ， 转 子 的 轴 心 轨迹 为 椭圆 ， 这 时 
候 , 振动 的 强烈 程度 对 工作 转速 的 变化 非常 敏感 。 还 有 什么 引起 转子 不 平衡 的 原因 ? ” 

马 处 长 说 道 “油膜 涡 动 。 比 如 轴承 发 生 油膜 时 ， 尽 管 振幅 较 小 ， 对 轴承 的 润滑 
和 工作 影响 不 大 , 但 它 毛 产生 的 附加 动力 载荷 容易 使 机 器 零 部 件 发 生 松 动 和 疲劳 失效 
等 故障 。” 


R 钢铁 公司 的 何 总 说 道 ; “ 马 处 长 说 起 油膜， 提醒 了 我 。 油 膜 振荡 ， 是 轴 颈 带动 
润滑 油 高 速 流动 时 ， 高 速 油 流 反 过 来 激励 铀 颈 ， 使 其 发 生 强烈 振动 的 一 种 自 激 振动 现 
象 。” 

S 钢铁 公司 的 赵 总 也 补充 道 ; “还 有 转子 支承 系统 连接 松动 和 转子 不 对 中 ， 也 可 
引起 转子 不 平衡 。” 

李 部 长 又 想起 了 一 种 原因 ， 说 道 , “还 有 喘 振 ， 它 是 透 平 压缩 机 特有 的 现象 。 喘 
振 较 大 时 常 导 到 转子 弯曲 、 联 轴 回 及 齿轮 箱 损坏 等 。” 


徐 教授 进一步 说 : “转子 不 平衡 的 原因 基本 上 就 是 这 些 了 ， 要 诊断 出 这 些 原因 ， 
就 必须 选取 故障 特征 变量 。 我 们 选取 故障 信号 的 频率 特征 、 振 动 特征 、 敏 感 参数 作为 
故障 识别 的 标准 故障 模式 ， 组 成 故障 识别 参数 集 。” 


“ 徐 老师 ， 复 杂工 业 系统 的 设备 繁多 ， 系 统 复杂 ， 经 常 出 现 多 种 故障 原因 同时 作 
用 ， 应 用 常规 的 分 类 方法 难以 进行 这 样 的 故障 诊断 吧 。” 李 部 长 说 出 了 自己 的 想法 。 


徐 教授 高 兴 地 说 道 : “ 李 部 长 分 析 地 很 对 。 对 于 这 类 问题 ， 通 常用 建立 故障 变量 
与 故障 类 型 之 间 的 多 值 关联 规则 的 方法 进行 故障 诊断 。 在 机 械 设备 故障 诊断 中 ,关联 
技术 就 是 寻求 设备 中 各 因素 间 的 主要 关系 ， 找 出 影响 目标 值 的 重要 因素 。 从 而 掌握 事 
物 的 主要 特征 ， 促 进 和 引导 系统 迅速 而 有 效 地 发 展 。” 


“ 徐 老师 ， 我 记得 关联 规则 只 能 使 用 离散 型 数据 ， 而 这 个 故障 诊断 问题 数据 是 连 
续 的 。” 李 部 长 分 析 说 。 
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徐 教授 说 道 : “对 。 使 用 关联 规则 算法 前 ， 需 要 对 连续 型 数据 离散 化 。 我 们 首先 
为 每 一 连续 型 属性 划分 为 几 个 区 间 段 ， 然 后 把 该 属性 的 值 影 射 到 各 个 区 间 。 比 如 , 在 
识别 参数 集中 ， 各 段 频率 都 是 经 过 离散 化 ， 转 换 为 离散 值 ， 其 他 振动 特征 与 敏感 参数 
〈 如 相位 特征 、 轴 心 轨迹 、 转 速 、 油 温 等 ) 的 表征 为 : 稳定 、 较 稳定 和 不 稳定 ， 或 者 
规则 的 、 较 杂乱 、 杂 乱 和 杂乱 并 扩散 ， 或 者 不 变 、 不 明显 、 有 变化 、 明 显 和 很 明显 。” 


随 着 徐 教授 的 详细 解释 ， 大 家 明白 了 数值 预 处 理 过 程 。 


徐 教授 接着 描述 道 : “接着 计算 所 有 属性 经 过 划分 后 的 支持 度 ， 如 果 出 现 比 支持 
度 阔 值 小 的 情况 , 则 考虑 重新 划分 或 合并 相 临 区 间 。 找 出 比 最 小 支持 度 大 的 所 有 项 集 ， 
得 到 频繁 项 集 ， 最 后 就 可 以 由 频繁 项 集 提取 故障 诊断 的 关联 规则 。” 


有 人 又 问 道 : “发 现 关 联 规则 后 ， 怎 么 从 数据 来 判断 故障 类 型 呢 ? ” 


徐 教授 回答 道 : “如 果 新 来 故障 的 数据 满足 不 平衡 故障 规则 所 提供 的 条 件 ， 我们 
就 可 以 判定 该 条 数据 为 不 平衡 故障 。 例如， 如 果 新 来 故障 的 数据 满足 松动 的 故障 规则 
所 提供 的 条 件 ， 我 们 就 可 以 判定 该 条 数据 为 松动 故障 。 同 样 ， 这 种 方法 适用 于 其 他 故 
障 数据 。 


7.3 ” 核 动力 设备 故障 诊断 


徐 教授 提 着 公文 包 迈进 教室 ， 打 开 笔 记 本 电脑 ， 将 PPT 停留 在 第 一 页 幻灯 片上 。 


李 部 长 看 到 大 屏幕 上 有 一 张 核 电站 的 图 像 ， 劳 边 画 了 一 个 大 蚂蚁 ,不 知 徐 教授 的 
意图 。 


大 家 陆 陆 续 续 到 了 ， 徐 教授 清 了 清 嗓 子 ， 说 : “今天 将 讲解 数据 挖掘 技术 在 核 动 
力 设 备 故障 诊断 中 的 应 用 。” 


听 到 “ 核 动力 设备 ”这 几 个 字 ， 大 家 顿时 安静 不 住 了 。 因 为 前 不 久 的 日 本 福 岛 核 
泄漏 事故 给 大 家 留 下 了 很 深 的 印象 ， 特 别 是 “ 盐 荒 ”事件 。 
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徐 教授 接着 说 : “其 实 严重 的 核 泄漏 事件 不 只 是 日 本 福 岛 核 事件 ， 比 如 ，1979 
年 3 月 发 生 的 美国 三 里 岛 核 电 广 2 号 机 组 事故 就 是 由 于 操作 人 员 未 能 识别 出 稳 压 器 外 
压 阀 未 关闭 ， 并 执行 了 错误 的 动作 而 导致 ，1986 年 4 月 苏联 切 尔 诺 贝 利 4 号 机 组 事 
故 主要 原因 是 对 运行 规则 的 粗暴 违反 ,这 两 起 事故 都 造成 了 反应 堆 烧 毁 ， 放射性 物质 
外 泄 。 另 外 2004 年 8 月 9 日 日 本 关 西 电力 公司 位 于 福井 县 美 滨 核 电站 3 号 反应 堆 发 
生 涡轮 机 房 内 蒸汽 泄漏 事故 ， 虽 然 没 有 放射 性 物质 泄漏 ， 但 造成 了 4 人 死亡 ，7 人 受 
伤 的 后 果 。” 


“现在 大 家 让 日 本 核 汇 漏 事件 搞 得 是 谈 “ 核 ” 色 变 了 都 ! ” 李 部 长 略 带 气 愤 的 语 
气 说 。 

徐 教授 说 : “我 们 不 能 怕 了 “ 核 ”就 不 利用 它 了 ， 相 比较 起 来 核能 源 是 非常 安全 
和 绿色 的 能 源 。 就 比如 ， 我 们 不 能 怕 嘲 着 就 不 吃饭 了 不 是 ， 哈 哈 ! ” 

“ 徐 老师 ， 您 先 给 介绍 下 核 动力 装置 到 底 是 怎么 样 的 一 个 装置 吧 。” 马 处 长 不 愧 
是 个 急性 子 。 

徐 教授 解释 说 : “ 核 动 力 装置 是 一 个 技术 密集 、 结 构 复杂 、 造 价 昂 贵 的 复杂 系统 。 
在 纵向 ， 核 动力 装置 可 按 层次 分 解 为 多 种 不 同类 型 的 系统 或 设备 ,在 横向 ， 诸 多 设备 
之 间 通 过 功能 接口 与 物理 接口 关系 、 控 制 关 系 相互 保障 和 制约 ， 构 成 一 个 有 机 整体 ; 
由 于 核 安全 的 限制 ， 还 存在 纵深 防御 、 多 层 屏 障 。” 


“确实 比较 复杂 ! ” 台 下 有 人 说 。 


“又 由 于 其 依靠 核反应 堆 来 提供 动力 来 源 , 因此 核 动力 装置 的 特殊 性 不 仅 表现 在 
其 复杂 性 上 还 表现 在 其 发 生 故障 后 可 能 的 潜在 放射 性 危险 上 。” 徐 教授 说 。 

“日 本 福 岛 核 汇 漏 是 个 大 教训 啊 ! 至 少 我 不 想 再 经 历 一 次 “ 盐 荒 ”了 ! ” 李 部 长 
意味 深长 地 说 。 


徐 教授 幽默 地 把 “ 盐 荒 ” 放 在 核 动力 安全 之 前 ， 说 道 : “为 了 不 再 发 生 “ 盐 荒 ” ， 
同时 适应 核 动力 装置 安全 性 和 可 靠 性 的 更 高 要 求 。 各 种 先进 技术 和 设备 得 到 广泛 使 
用 ， 但 是 也 使 得 核 动 力 装置 越 来 越 复杂 ， 这 也 给 操纵 人 员 带 来 了 很 大 的 困难 。” 
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马 处 长 点 头 表示 赞同 说 : “有 道理 ! ” 


徐 教授 接着 说 : “ 核 动力 装置 主 控 室内 的 报警 量 就 有 2000 多 个 ， 一 旦 发 生 故 障 ， 
可 能 会 出 现 多 个 参量 同时 报警 ， 这 些 报警 信息 虽然 可 以 帮助 操作 人 员 进 行 故障 辨识 ， 
但 同时 也 给 操作 人 员 带 来 很 大 的 压力 ， 从 而 影响 其 做 出 正确 的 决策 ， 核 发 展 史上 的 几 
次 重大 事故 也 证 明了 这 一 点 。 仅 赁 操作 人 员 的 技能 和 经 验 是 不 能 很 好 的 对 核 动力 装置 
进行 控制 的 。” 


“是 的 ，“ 经 验 主义 害 死人 ”! ” 李 部 长 说 。 


徐 教授 说 : “ 越 来 越 多 的 人 认识 到 经 验 是 靠不住 的 ， 所 以 随 着 核 技术 的 不 断 发 展 
和 应 用 以 及 人 们 对 核 安全 的 高 要 求 , 如 何 保证 核 动力 装置 的 安全 运行 受到 了 核能 界 的 
高 度 重视 , 研究 人 员 在 尽量 提高 核 动力 装置 自身 的 固有 可 靠 性 的 同时 开始 注重 开发 核 
动力 装置 故障 诊断 系统 。” 

“ 核 动力 装置 故障 诊断 系统 ? ”有 人 有 点 怀疑 。 

徐 教授 说 : “是 的 ， 核 动力 装置 故障 诊断 系统 是 一 种 操作 人 员 的 支持 系统 ， 其 目 
的 是 使 故障 诊断 更 容易 、 更 准确 ， 降 低 事故 时 的 人 为 失误 并 减轻 事故 给 操作 人 员 带 来 
的 压力 ， 提 高 系统 的 可 靠 性 和 有 效 性 。” 

“这 样 的 系统 太 豚 需 了 ! ” 马 处 长 联系 到 自己 行业 的 大 型 设备 言 道 。 

“ 那 核 动力 故障 诊断 系统 的 目标 是 怎样 的 呢 ? ” 李 部 长 问 。 

徐 教授 回应 说 : “ 核 动力 故障 诊断 系统 能 够 对 装置 的 主要 运行 参数 进行 监控 , 或 
发 现 核 动力 装置 可 能 的 运行 故障 ,发 出 相应 的 报警 信息 或 给 出 故障 的 部 位 、 故 障 的 原 
因 ， 使 操作 人 员 能 够 及 时 地 发 出 命令 ， 防 止 出 现 运 行 故障 ， 使 核 动力 装置 具有 较 好 的 
运行 状态 ， 从 而 达到 改善 核 动力 装置 运行 性 能 、 保 证 其 安全 性 、 提 高 核 动力 装置 的 易 
操纵 性 的 目标 。” 


“要 求 这 么 高 ， 实 施 确实 有 难度 ! ” 台 下 有 人 道 。 
“不 怕 ， 我 们 可 以 用 这 个 ! ” 徐 教授 翻动 幻灯 片 ， 屏 幕 上 出 现 一 个 巨大 的 蚂蚁 。 
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“蚂蚁 ! ”大 家 异口同声 地 喊 到 ， 并 感到 很 纳闷 。 


“是 的 ， 大 家 可 别 小 看 蚂蚁 哦 ! ” 徐 教授 看 到 坐 在 后 排 的 同学 精神 不 济 ， 就 打算 
给 大 家 提 提 神 。 


徐 教授 接着 说 : “蚂蚁 很 强大 哦 ! 我 先 给 大 家 讲 个 笑话 ! ” 听 到 徐 教授 讲 笑话 了 ， 
后 排 的 同学 顿时 来 了 兴致 。 


徐 教授 托 了 托 眼镜 ， 说 : “一 只 蚂蚁 在 路 上 看 见 一 头 大 象 ， 蚂 蚁 钻 进士 里 ， 只 有 
一 只 腿 露 在 外 面 。 小 兔子 看 见 不 解 地 问 : “为 什么 把 腿 露 在 外 面 ? ”蚂蚁 说 : “ 吐 ! 
别 出 声 ， 老 子 绊 他 龟 儿 子 一 跤 ! ”第 二 天 ， 免 子 看 见 整 窝 的 蚂蚁 排 着 队 急匆匆 赶路 ， 
问 何故 , 蚂蚁 答 :“ 昨 天 有 头 大 象 被 我 们 一 个 兄弟 绊 倒 , 摔 成 重伤 , 我 们 给 那 白 献血 。” 
没 多 久 ， 兔 子 见 大 批 蚂 蚁 又 回来 了 ， 就 问 怎么 回 事 ， 一 只 蚂蚁 说 : “ 哦 ， 只 有 一 只 旺 
蚊 跟 那 大 象 的 血型 一 致 ， 留 他 一 个 在 那 抽 血 呢 。”” 


听 完 关于 蚂蚁 的 这 个 笑话 ， 大 家 被 逗 得 前 仰 后 合 。 
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“蚂蚁 强大 吧 ? ! 至 少 让 大 家 不 睹 睡 了 ! ” 徐 教授 幽默 地 说 。 


看 到 后 排 暑 睡 的 学 员 又 有 了 精神 ， 徐 教授 接着 说 : “今天 我 们 的 主角 就 是 蚂蚁 ， 
我 们 要 用 蚁 群 优化 算法 进行 故障 诊断 ! ” 


“一 个 蚂蚁 都 够 厉害 ， 如果 是 蚁 群 就 更 厉害 了 ， 那 不 要 绊 倒 一 群 大 象 ? ! ” 李 部 
长 开玩笑 说 。 

“我 们 在 蚁 群 算法 中 提出 了 人 工 蚁 的 概念 。 人 工 蚁 有 着 双重 特性 ， 一 方面 ， 它 们 
是 真实 蚂蚁 行为 特征 的 一 种 抽象 , 通过 对 真实 蚂蚁 行为 的 观察 ,将 蚁 群 部 食 行为 中 最 
关键 的 部 分 赋予 了 人 工 蚁 ; 另 一 方面 ， 由 于 所 提出 的 人 工 蚁 是 为 了 解决 一 些 工程 实际 
中 的 优化 问题 ， 因 此 为 了 能 使 蚁 群 算法 更 有 效 ， 人 工 蚁 具备 了 一 些 真实 蚂蚁 所 不 具备 
的 本 领 。” 徐 教授 解释 说 。 


“俗话 说 思想 照 多 远 ， 我 们 就 能 走 多 远 ， 那 蚁 群 算法 是 怎么 个 思想 呢 ?” 李 部 长 
幽默 地 说 。 


“ 蚁 群 算法 的 基本 思想 可 概括 为 ， 在 蚁 群 优化 算法 中 ,一 个 有 限 规模 的 人 工 蚁 群 
体 可 以 相互 协作 地 搜索 用 于 解决 优化 问题 的 最 优 解 。 每 只 蚂蚁 根据 问题 所 给 出 的 准 
则 ， 从 被 选 的 初始 状态 出 发 建立 一 个 可 行 解 ， 或 是 解 的 一 个 组 成 部 分 。 每 只 蚂蚁 都 能 
够 找 出 一 个 解 ， 但 很 可 能 是 较 差 解 。 蚁 群 中 的 个 体 同时 建立 了 很 多 不 同 的 解决 方案 ， 
找 出 高 质量 的 解 是 群体 中 所 有 个 体 之 间 全 局 相互 协作 的 结果 。” 


“具体 该 怎么 理解 昵 ? ” 


徐 教授 解释 说 :“ 蚂 蚁 在 竟 食 过 程 时 , 是 以 信息 素 作为 媒介 而 间接 进行 信息 交流 ， 
当归 蚁 从 食物 源 走 到 蚁 穴 , 或 者 从 蚁 穴 走 到 食物 源 时 ， 都 会 在 经 过 的 路 径 上 释放 信息 
素 ， 从 而 形成 了 一 条 含有 信息 素 的 路 径 ， 蚂 蚁 可 以 感觉 出 路 径 上 信息 素 浓度 的 大 小 ， 
并 且 以 较 高 的 概率 选择 信息 素 浓度 较 高 的 路 径 。” 
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“ 哦 ， 有 点 深奥 !” 李 部 长 挠 挠 头 ， 表 示 不 太 理解 。 


徐 教授 接着 解释 说 : “蚂蚁 在 路 径 上 前 进 时 会 根据 前 边 走 过 的 蚂蚁 所 留 下 的 分 泌 
物 选 择 其 要 走 的 路 径 。 其 选择 一 条 路 径 的 概率 与 该 路 径 上 分 泌 物 的 强度 成 正比 。 因 此 ， 
由 大 量 蚂蚁 组 成 的 群体 的 集体 行为 实际 上 构成 一 种 学 习 信 息 的 正 反馈 现象 。” 


“什么 现象 ? ” 马 处 长 探 着 脑袋 问 。 


“ 某 一 条 路 径 走 过 的 蚂蚁 越 多 ， 后 面 的 蚂蚁 选择 该 路 径 的 可 能 性 就 越 大 。 蚂 蚁 的 
个 体 间 最 终 通过 这 种 信息 的 交流 寻求 通 向 食物 的 最 短路 径 。” 徐 教授 说 。 


“不 错 ， 曙 蚁 虽 小 ， 给 人 类 的 启发 作用 确实 很 大 啊 ! ” 李 部 长 说 。 
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徐 教授 : “这 里 给 大 家 讲 的 是 最 初 的 蚁 群 算法 ， 该 算法 还 存在 很 多 不 足 ， 有 很 多 
学 者 对 蚊 群 算法 进行 了 改进 ， 例 如 蚊 群 系统 算法 等 ， 这 些 我 们 就 不 在 课堂 上 详细 讲解 
Ts 


徐 教授 看 到 大 家 对 蚁 群 算法 的 基本 原理 大 概 接受 了 ， 接 着 说 : “对 于 在 核 动力 设 
备 故 障 诊断 中 的 应 用 ， 我 们 首先 将 核 动力 装置 分 成 各 级 ， 对 不 同 级 别 进 行 故障 定位 。 
由 于 算法 及 分 析 的 复杂 性 限制 , 今天 以 一 回路 的 主 冷却 剂 系 统 为 研究 对 象 ， 将 其 划分 
到 设备 级 进行 故障 定位 研究 ， 各 设备 简化 为 节点 形式 , 简化 后 的 一 回路 主 冷却 剂 系 统 
如 屏幕 所 示 。” 


“虽然 简化 了 还 是 吝 复 杂 的 哦 ! ” 李 部 长 趴 在 马 处 长 耳 畔 低 声 说 。 
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徐 教授 接着 解释 道 : “由 于 核 动力 装置 发 生 故障 后 ， 对 于 同一 个 参量 ， 可 能 不 同 
设备 发 生 故 障 时 ， 均 会 变 为 异常 ， 例 如 稳 压 器 水 位 ， 当 稳 压 器 自身 发 生 故 障 时 会 偏离 
正常 值 ， 当 蒸发 器 或 主 冷 却 剂 管道 破裂 等 故障 发 生 时 ， 它 也 会 偏离 正常 值 ， 因 此 对 于 
不 同 设备 的 状态 描述 可 能 涉及 相同 的 参量 。” 


“这 就 导致 故障 定位 比较 麻烦 了 。” 李 部 长 认为 。 


徐 教授 翻动 幻灯 片 ， 说 : “我 们 选择 与 所 要 研究 的 对 象 相关 的 故障 。 屏 幕 显示 的 
为 100% 功 率 运 行 发 生 故 障 时 状态 参量 变化 的 最 大 限 值 ”。 


和 雪 量 仗义 单位 ”和 参量 使 叉 单位 
1 堆 芯 流量 % 9 蒸汽 流量 Kg/s 
4 热管 段 温度 C 10 ”蒸发 器 破裂 流量 Kg/s 
3 冷 管 段 温度 11 ”一 回路 流量 Kg/s 
4 堆 芯 流 量 Kg/s ”12 稳 压 器 压力 Mpa 
5 蒸发 器 水 位 ( 宽 量 程 ) % 13 ” 热 功率 % 
6 荣 发 器 水 位 ( 罕 量 程 ) % 14 ” 核 功率 % 
7 蒸发 器 压力 Mpa ”15 ”过 冷 裕 度 C 
8 给 水 流量 / 16 ” 稳 压 器 水 位 % 

17 ”平均 温度 站 


设备 ”故障 /参量 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 
反应 堆 破 口 事故 03 06 08 217 02 0201 40 27 35 04 02 03 03 03 13 05 


蒸汽 发 生 器 传 热管 破裂 05 15 13 6390403 01 29 60 28 03 02 04 03 02 09 07 


“那么 是 如 何 实现 故障 定位 的 ? ” 台 下 有 人 问 。 
“采用 蚁 群 算法 实现 故障 定位 的 基本 流程 如 屏幕 显示 。” 徐 教授 说 。 
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徐 教授 学 着 爱问 问题 的 李 部 长 语气 说 : “如 何 通过 评价 函数 来 进行 故障 定位 的 
呢 ? ” 惹 来 大 家 一 阵 笑 声 ， 然 后 接着 说 : “我 特意 做 了 一 个 流程 图 ， 通 过 这 个 图 大 家 
可 以 清楚 理解 是 怎样 通过 计算 评价 函数 来 实现 故障 定位 的 。 请 大 家 看 大 屏幕 。” 


< 一 


“那么 蚁 群 算 法 的 结果 怎么 样 ? ” 李 部 长 问 。 


徐 教授 看 到 大 家 好 像 都 有 这 样 的 疑惑 ， 就 解释 说 “ 蚁 群 算法 搜索 出 的 异常 参量 列 
表 为 | 一 4 一 9 一 10 一 8 一 2 一 3 一 17 一 16 一 5 一 12 一 6 一 13 一 11 一 15 一 14 一 7。 从 蚁 群 算法 
搜索 出 的 异常 ， 参 量 列 表 可 以 看 出 偏离 正常 值 较 大 的 参量 都 排 在 列表 前 面 ， 这 对 于 快 
速 判 断 故障 设备 是 有 利 的 。” 


李 部 长 懂 然 大 悟 ， “原来 是 这 样 ! ” 


徐 教授 接着 说 : “ 核 动力 装置 在 运行 的 过 程 中 ， 设 备 发 生 故 障 时 ， 一 般 情况 下 不 
同 设备 异常 ,参量 也 不 相同 ， 因 此 大 多 情况 下 直接 利用 蚁 群 算法 搜索 异常 参量 与 标准 
故障 表 进 行 比 对 即 可 。 当 不 同 设备 发 生 故 障 ， 异 常 参 量 也 相同 时 ， 就 利用 评价 函数 一 
一 对 各 参量 进行 计算 ， 通 过 评价 函数 可 确定 故障 设备 。” 
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al(1)<0.3 
3<Val(1)<0.5 ， 
<Val(4)<217 


GO 一 一 


<Val(9)<2.7 器 /反应 堆 国 
一 蒸发 器 “ 国 
<val10)<2.8 一 一 生 六 发 BE 上 堆 国 
valloj<352 一 是 zt 国 


徐 教授 走 到 学 员 中 间 ， 说 : “实际 故障 定位 时 ， 在 计算 三 个 以 上 参量 判断 为 同一 
设备 故障 后 给 出 最 终 判 断 结果 。 当 所 判断 故障 设备 越 多 时 , 参量 评价 函数 的 分 级 越 多 ， 
由 于 这 里 只 考虑 了 两 个 设备 ， 所 以 对 评价 函数 分 级 时 只 分 为 两 级 就 可 以 判断 故障 设 
备 ， 从 而 完成 故障 定位 。 是 不 是 很 简单 ? ” 


“ 徐 老师 ， 这 样 就 好 ， 您 点 到 为 止 就 好 ， 让 我 们 明白 道理 就 可 以 了 ， 再 深入 了 我 
们 接受 起 来 就 有 困难 了 。” 电 力 公司 的 马 处 长 说 出 了 大 家 的 感受 。 


“好 ,不 过 我 有 信心 让 大 家 能 够 了 解数 据 挖 掘 在 故障 诊断 中 的 应 用 方法 。 这 节 课 
到 此 结束 ! ” 徐 教授 挥手 示意 下 课 。 
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7.4 船舶 动力 故障 诊断 


“有 一 首 歌 很 火 ， 叫 《纤夫 的 爱 》， 相 信 在 座 的 都 很 熟悉 。” 徐 教授 开场 道 ， 随 
后 将 这 首 歌 曲 的 前 面 几 名 歌词 “妹妹 你 坐 船 头 ， 哥 哥 在 岸上 走 ， 恩 恩爱 爱 纤 绳 荡 悠 
悠 ……” 写 在 了 黑板 上 。 


有 人 说 道 “这 个 歌 真是 太 有 意思 了 ， 看 着 歌词 都 没 法 念 出 来 ， 念 着 就 想 唱 。 即 
使 不 念 ， 也 一 定 会 是 在 心里 唱 着 出 来 。” 


徐 教授 说 道 :“ 这 个 歌 确实 有 意思 , 哥哥 的 纤 强 荡 悠 您 之 后 , 妹妹 的 船 就 走动 了 。 
由 此 ， 引 出 了 我 们 今天 要 讲 的 : 船舶 动力 问题 。 讲 到 船舶 动力 ， 就 不 能 不 提 船 舶 动力 
装置 。” 
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台 下 一 个 学 员 道 : “ 徐 教授 ， 船 舶 动力 装置 很 好 理解 ， 就 是 为 保证 船舶 正常 营运 
而 设置 的 动力 设备 。 它 是 为 了 保证 船舶 正常 航行 提供 能 量 的 机 械 设备 ， 应 该 说 是 船舶 


重要 的 组 成 部 分 。” 


徐 教授 继续 说 道 : “是 的 ， 一 般 地 船舶 动力 装置 包括 主动 力 装置 、 辅 助 动 力 装置 
等 。 主 动力 装置 包括 主机 、 传 动 设备 、 轴 系 、 推 进 器 及 其 附属 设备 ， 是 全 船 的 心脏 。 
辅助 动力 装置 包括 为 全 船 提供 电力 、 照 明和 其 他 动力 的 装置 , 如 发 电机 组 、 副 锅炉 等 。 
主动 力 装 置 以 主机 类 型 命名 ， 比 如 蒸汽 机 类 的 。” 


台 下 有 人 问 道 : “世界 上 有 两 条 船 最 出 名 ， 一 个 是 诺 亚 方舟 ， 另 一 个 是 泰坦 尼克 
号 。 诺 亚 方舟 我 们 都 知道 是 神话 传说 ， 就 不 说 了 。 我 想 问 的 是 那个 泰坦 尼克 号 的 动力 
装置 是 什么 类 型 的 ? ” 


说 起 这 个 话题 ， 马 处 长 站 起 来 说 : “泰坦 尼克 号 以 煤 为 燃料 产生 蒸汽 推动 蒸汽 机 
工作 ， 船 上 有 25 台 双 端 锅炉 和 4 台 单 端 锅炉 ， 它 们 的 动力 来 自 159 台 煤 炭 熔炉 ， 它 
们 24 小 时 源源 不 断 地 为 泰坦 尼克 号 提供 维持 强大 动力 的 蒸汽 ， 动 力 系统 由 3 套 主机 
组 成 ， 其 中 2 套 为 4 汽缸 往复 式 蒸 汽机 ， 另 外 1 套 为 蒸汽 轮机 。” 


“除了 蒸汽 机 类 的 动力 装置 ， 还 有 汽轮机 、 柴 油 机 、 燃 气 轮机 和 核 动力 装置 等 几 
类 船舶 动力 类 型 。” 徐 教授 接 过 话题 说 道 : “船舶 动力 设备 由 于 结构 复杂 、 工 作 条 件 
恶劣 等 原因 ， 发 生 故 障 的 几率 较 高 。 若 忽视 其 状态 监测 与 故障 诊断 ， 很 可 能 造成 难以 
想象 的 重大 事故 。” 
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国内 某 船 舶 所 的 程 主任 感慨 地 说 道 , “ 徐 老师 ， 您 也 知道 ， 由 于 船舶 动力 设备 是 
复杂 的 非 线 性 系统 ， 对 于 我 们 这 些 不 懂 新 技术 的 “ 老 古 板 ”， 在 实际 中 要 准确 界定 设 
备 故 障 所 在 真 的 是 十 分 困难 。 我 们 单位 每 年 因 动力 设备 故障 造成 的 经 济 损失 都 非常 巨 
大 ， 还 可 能 造成 重大 的 人 员 伤亡 ， 因 此 如 何 及 时 发 现 和 排除 故障 意义 十 分 重大 。” 


“ 徐 教授 ， 我 有 个 问题 咨询 下 程 主任 。” 得 到 徐 教授 手势 示意 后 ， 马 处 长 问 道 : 
“ 程 主任 , 我 们 电力 行业 在 实际 中 的 故障 诊断 一 般 都 是 通过 计划 检修 来 发 现 的 。 虽然 
目前 已 经 有 一 定 程 度 的 在 线 监测 ,但 是 对 收集 来 的 信息 利用 还 是 很 低 的 。 前 面 徐 教授 
提 过 状态 检修 来 改善 这 个 窘 况 。 不 知道 你 们 船舶 业 的 状态 检修 是 个 什么 情况 ? ” 

程 主任 回答 道 :“ 说 来 源 愧 , 我 们 目前 的 维修 作业 多 采用 预防 性 维修 和 事后 维修 。 
预防 性 维修 ， 你 也 知道 ， 就 是 对 没有 发 生 故 障 的 设备 确定 一 个 强制 性 的 维修 计划 ， 使 
每 台 设 备 都 有 自己 固定 的 维修 保养 周期 , 再 就 是 在 设备 已 经 出 现 故 障 后 的 事后 维修 。” 
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台 下 的 华润 万 家 的 万 总 站 起 来 说 道 : “国内 的 情况 都 差不多 。 开 展 状态 监测 维修 
的 基础 是 用 可 靠 的 方法 获取 到 设备 的 真实 状态 , 为 此 需要 相应 的 设备 检测 诊断 系统 的 
支持 。 它 是 根据 设备 的 日 常 点 检 、 定 期 检查 、 状 态 监测 和 诊断 提供 的 信息 ， 经 过 统计 
分 析 处 理 来 判断 设备 技术 状态 的 好 坏 ， 并 在 故障 发 生前 有 计划 地 进行 维修 。 随 着 技术 
发 展 ， 我 们 目前 已 经 有 了 这 个 开展 状态 维修 的 基础 了 。” 


听 完 大 家 的 意见 ， 徐 教授 说 道 : “研究 领域 ， 国 内 多 年 来 热衷 于 算法 的 改进 ， 始 
终 未 能 形成 工程 性 的 实用 产品 。 根 据 近 年 本 领域 发 表 的 大 量 文献 看 ， 当 前 ， 我 国 船舶 
动力 设备 诊断 系统 的 相关 研究 与 工程 应 用 的 实际 情况 有 较 大 差距 。 造 成 该 现状 的 主要 
原因 是 缺乏 一 个 整体 性 的 资源 平台 ， 无 法 形成 研究 的 合力 。” 


徐 教授 说 : “没有 形成 合力 这 点 像 《 天 鹅 、 大 虾 、 梭 鱼 拉 车 》 的 故事 : 天 鹅 、 大 
虾 、 梭 鱼 想 拖 着 一 辆 大 车 跑 ， 它 们 都 给 自己 上 了 套 ， 拼 命 地 拉 呀 拉 呀 ， 大 车 却 一 动 也 
不 动 ， 车 子 虽说 不 算 重 , 可 天 鹅 伸 着 脖子 要 往 云 里 钼 ， 大 虾 弓 着 腰 儿 使 动 往 后 靠 ， 梭 
鱼 一心 想 往 水 里 跳 。 究 竟 谁 是 谁 非 ， 我 们 管 不 着 ， 只 知道 ， 大 车 至 今 仍 在 原 处 ， 未 动 
分 毫 。” 
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台 下 一 个 学 员 问 道 : “ 真 形象 ， 徐 教授 ， 想 做 出 一 番 贡 献 还 必须 得 靠 合力 。 那 目 
前 我 们 形成 的 合力 以 推 “故障 诊断 数据 挖掘 ”这 辆 大 车 的 力量 有 哪些 呢 ? ” 


徐 教授 回答 说 : “ 据 故 障 诊断 技术 向 智能 化 、 综 合 化 、 系 统 化 方向 发 展 趋势 的 特 
征 , 工程 船舶 动力 机 械 研 究 成 果 主 要 体现 在 将 热力 参数 分 析 法 、 油 液 分 析 法 和 振动 诊 
断 法 等 多 种 诊断 方法 综合 应 用 ; 将 新 的 信号 分 析 和 处 理 方法 (如 神经 网 络 和 遗传 算法 
等 数据 挖掘 技术 新 技术 ) 应 用 于 柴油 机 信号 的 分 析 与 处 理 中 ,开展 工 程 船舶 动力 机 械 
智能 专家 诊断 系统 的 研究 。” 


“ 徐 教授 ， 还 是 给 大 家 具体 讲 一 个 方法 来 说 明 一 下 吧 。” 台 下 有 人 建议 道 。 


徐 教授 回答 道 :“ 对 机 械 设备 润滑 油 进 行 光谱 分 析 ， 是 故障 诊断 的 一 种 手段 。 
光谱 分 析 数 据 是 被 监测 油 样 中 包含 的 19 种 金属 和 非 金属 元 素 的 质量 浓度 值 。 聚 类 分 
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析 方 法 利用 油 样 所 有 元 素 浓度 的 分 布 情况 ,计算 油 样 之 间 的 距离 关系 ,来 确定 油 样 状 
态 进 而 确定 故障 原因 。” 


台 下 有 人 问 道 : “这 里 需要 考虑 的 数据 指标 有 哪些 呢 ? ” 


程 主任 抢先 回答 道 ; “这 个 我 知道 ， 如 油 液 分 析 中 的 光谱 分 析 ， 获 得 Fe、Al、 
Cu 等 19 个 元 素 的 浓度 值 ， 这 19 个 元 素 浓度 指标 就 是 19 个 基础 指标 单元 。 也 可 以 使 
用 19 个 基础 指标 单元 延伸 出 的 变化 率 ， 比 如 Fe 的 变化 率 、Al 的 变化 率 、Cu 的 变化 
率 等 。” 


王 经 理 也 说 出 自己 的 看 法 : “行业 某 些 问题 是 共通 的 。 所 以 ， 我 想 在 实际 诊断 过 
程 中 要 用 到 大 量 能 够 数字 化 量度 的 状态 判断 判 据 或 定性 规则 。 如 振幅 多 大 是 振动 过 
大 ， 相 位 变化 多 少 属于 不 稳定 或 稳定 ， 诸 如 此 类 。 有 很 多 这 类 需要 界定 的 判 据 ， 这 是 
整个 诊断 是 否 正确 的 一 个 关键 环节 。” 


徐 教授 继续 说 道 “ 程 主任 业务 果然 很 精通 ， 王 经 理 也 说 得 很 对 。 经 过 这 些 数据 
准备 之 后 ， 就 需要 经 历 聚 类 技术 的 两 个 步骤 。 第 一 步 就 是 数据 标准 化 : 常用 的 方法 是 
平均 绝对 偏差 法 。 平 均 绝对 偏差 法 主要 包含 计算 每 个 属性 的 平均 绝对 偏差、 标准 化 的 
度量 值 。 第 二 步 是 计算 相 异 度 : 数据 间 的 相 异 度 是 基于 对 象 间 的 距离 来 计算 的 (常用 
欧 几 里 德 距离 )》。” 


台 下 学 员 举 手 问 道 : “我 经 常 看 见 说 数据 预 处 理 时 需要 数据 标准 化 ， 但 是 不 明白 
原因 ， 为 什么 要 标准 化 呢 ? ” 


旁边 的 刘 经 理 回答 道 : “我 的 理解 是 : 说 通俗 点 就 是 两 字 “ 平 等 ”: 让 属性 数据 
处 在 同一 起 跑 线 上 ， 然 后 再 进行 分 析 。 在 需要 聚 类 的 样本 由 多 个 属性 组 成 时 ， 不 同属 
性 的 绝对 值 变化 范围 可 能 因为 量 纲 的 关系 相差 很 大 , 为 此 需要 对 属性 值 进行 无 量 纲 化 
处 理 。” 


徐 教授 点 评 道 : “ 刘 经 理 回答 得 很 好 。 通 过 聚 类 方法 ， 对 实际 运行 的 柴油 机 不 同 
时 刻 采 集 的 13 个 油 样 光谱 油料 进行 分 析 。 通 过 油 样 状态 的 聚 类 结果 ， 就 可 以 辅助 判 
断 出 柴油 机 的 故障 原因 。” 
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“ 哦 ,我 明白 了 。 通 过 聚 类 形成 的 一 定 的 准则 及 诊断 策略 将 特征 提取 获得 的 待 检 
模式 与 数据 库 中 己 有 的 故障 案例 进行 对 比分 析 ， 就 能 识别 设备 当前 所 处 的 状态 。 但 是 
很 多 时 候 数据 库 这 些 故 障 案例 累积 是 很 少 的 ， 极 端 情况 下 可 能 一 个 都 没有 。 徐 教授 ， 
这 个 问题 有 什么 好 解决 办 法 没 ? ” 


徐 教授 说 道 : “这 个 问题 问 得 很 好 。 在 进行 聚 类 算法 有 效 性 验证 的 时 候 ， 比 较 令 
人 困扰 的 是 : 故障 诊断 的 判别 数据 〈 也 就 是 测试 集 ) 的 获取 非常 困难 ， 要 想 从 单一 的 
运行 参数 中 获得 可 供 诊断 的 判 据 数据 几乎 是 不 可 能 的 事情 。 这 时 候 ， 利 用 挖掘 跨国 公 
司 客户 服务 数据 库 中 的 服务 数据 来 提炼 诊断 判 据 知识 ， 能 突破 这 种 数据 该 乏 瓶颈 。” 


“这 个 数据 共享 技术 实现 难度 高 不 高 呢 ? ” 台 下 有 人 说 出 自己 的 疑问 。 


徐 教授 回答 道 : “已 经 证 实 可 以 实现 ， 某 单位 已 经 利用 数据 库 技 术 、 远 程 通信 技 
术 和 模式 识别 等 信息 技术 来 解决 判 据 获 取 的 难题 。” 

王 科 长 激动 地 说 : “这 样 大 力 地 改进 船舶 动力 设备 故障 诊断 技术 后 ， 提 高 了 系统 
运行 可 靠 性 ， 最 主要 的 是 保证 了 参与 者 的 生命 安全 。” 

张 经 理 也 附和 道 : “是 啊 ， 这 样 能 更 准确 、 更 及 时 地 了 解 设 备 状态 ， 使 零 部 件 的 
性 能 得 到 充分 的 利用 ， 降 低 维修 费用 ， 从 而 获得 最 佳 经 济 效益 。” 

鼓 风 动力 集团 的 王 总 也 高 兴 地 说 道 : “可 不 是 么 ， 好 处 一 点 都 不 可 小 视 。 船 舶 动 
力 设备 是 高 能 耗 、 高 污染 的 机 械 ， 在 其 最 佳 性 能 下 运行 时 ， 还 能 减少 能 耗 、 降 低 排 放 
呢 。” 
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今天 徐 教授 早早 地 来 到 了 教室 ， 看 还 有 几 位 同学 没 来 ， 就 用 手机 看 起 E-mail 来 


过 了 一 会 儿 ， 上 课 铃 响 了 ， 他 把 手机 放 在 讲台 上 ， 开 始 讲课 : “ 随 着 36 的 广泛 
应 用 ，46 时 代 的 到 来 ， 电 信 业 发 展 面临 着 前 所 未 有 的 机 遇 和 挑战 。 运 营 商 们 都 明白 
客户 占有 量 才 是 硬 道理 ,于 是 他 们 千方百计 地 挖 客户 , 但 是 客户 也 越 来 越 “ 挑 别 ” 了 ， 
不 一 定 买 他 们 的 帐 。 于 是 ， 他 们 开始 利用 数据 挖 气 技 术 ， 对 市 场 、 对 用 户 进 行 分 析 ， 
进行 科学 化 的 决策 。” 

移动 公司 的 梁 总 呼应 道 : “电信 业 面 临 最 紧迫 的 四 大 问题 : 第 一 个 是 市 场 分 群 ， 
究竟 客户 是 什么 样子 的 ; 第 二 个 精确 营销 ， 比 如 关联 消费 就 是 某 一 个 用 户 用 了 你 这 方 
面 的 业务 ， 此 用 户 还 会 用 其 他 什么 方面 的 业务 ; 第 三 个 是 新 业务 响应 ， 你 推出 一 个 套 
餐 、 新 业务 ， 什 么 样 的 人 来 响应 你 ; 第 四 个 是 客户 流失 ， 什 么 样 的 客户 会 流失 ， 为 什 
么 会 流失 ， 怎 么 预测 他 们 的 动向 。” 

徐 教 授 喜 笑颜 开 地 说 : “ 梁 总 概括 得 很 准确 。 接 下 来 几 节 课 ， 我 们 就 讲解 数据 
挖 气 在 这 四 个 方面 的 应 用 。” 


8.1 市 场 细 分 


“首先 我 们 来 讨论 数据 挖 据 在 电信 市 场 细 分 中 的 应 用 ， 问 一 个 问题 ,什么 是 市 场 
细 分 ? ” 徐 教授 提问 道 。 


“市 场 细 分 ，Market segmentation， 是 指 营销 者 通过 市 场 调研 ， 依 据 消费 者 的 需 
要 和 欲望、 购买 行为 和 购买 习惯 等 方面 的 差异 ， 把 某 一 产品 的 市 场 整 体 划分 为 若干 消 
费 者 群 的 市 场 分 类 过 程 。 每 一 个 消费 者 群 就 是 一 个 细 分 市 场 ， 每 一 个 细 分 市 场 都 是 具 
有 类 似 需求 倾向 的 消费 者 构成 的 群体 。” 电 信 公 司 的 冯 总 回答 道 。 


“市 场 细 分 应 该 有 很 多 维度 去 区 分 ， 比 如 人 口 特征 的 划分 、 消 费 行为 的 划分 等 。 
最 主要 的 是 市 场 细 分 应 该 围绕 着 营销 目标 进行 。” 在 冯 总 的 基础 上 ， 华 润 万 家 的 万 总 
补充 道 。 


徐 教授 又 开始 讲 故 事 了 : “说 起 目标 的 重要 性 ,我 想起 了 非洲 猫 狮 的 故事 。 话 说 
某 和 人 去 非洲 打猎 ， 找 到 当地 著名 的 老 猎 人 说 要 学 打 狮 子 。 老 猎手 说 你 要 打 狮 子 ， 一定 
要 讲究 方法 呀 ， 第 一 要 知道 狮子 在 哪 出 没 ， 比 如 ， 有 草 的 地 方 ， 最 好 还 有 水 ;第 二 你 
要 知道 哪些 地 方 狮子 扎堆 , 数量 多 ; 第 三 你 要 知道 什么 样 狮子 不 能 打 , 比如 怀 了 孩子 、 
带 着 孩子 的 母 狮子 不 能 打 ， 比 如 公 狮 母 狮 交 配 时 节 不 能 打 ， 狮 子 在 进食 离 它 远 一 些 ， 
还 有 把 狮子 逼 到 绝境 时 不 要 拼命 , 诸如 此 类 , 最 后 老 猫 人 强调 : 你 一 定 要 选 准 对 象 。” 
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大 家 都 伸 长 脖子 ， 等 待 徐 教授 故事 的 结尾 


徐 教授 继续 讲 到 : “此 公认 真 记录 下 来 ， 回 去 之 后 牢记 老 猎 人 的 教导 ， 做 了 充分 
的 思想 和 物质 准备 ， 最 后 带 着 枪 出 去 打 狮子 了 。 三 天 后 ， 猎 人 欢天喜地 回来 了 ， 大 家 
纷纷 涌 向 他 的 住处 ， 去 看 他 打 回 来 的 猎物 。 他 把 大 家 带 到 关 狮 子 的 笼子 劳 ， 众 人 定 睛 
观看 : 笼子 当中 是 一 头 既 没 怀孕 ， 也 不 强壮 、 全 身 慷 懒 ,性 情 温 和 的 公 狮 子 狗 ! 一 一 
这 是 我 在 郊区 公园 树林 中 的 一 大 群 狮子 当中 抓 回 来 的 ， 容 易 得 很 ， 早 知道 的 话 根 本 不 
用 带 枪 ， 此 君 大 声 向 围观 的 人 宣布 。” 


听 了 徐 教授 的 故事 ， 电 力 的 刘 总 感慨 地 说 : “非洲 猫 狮 的 笑话 告诉 我 们 : 不 要 由 
于 关注 于 完美 策略 而 忘记 目标 。 我 看 过 很 多 人 ， 他 们 的 计划 从 技术 上 讲 完美 无 缺 ， 你 
却 很 难 从 中 发 现 他 究竟 想 要 获得 什么 ? 就 像 那个 勇 武 的 猎 狮 人 一 样 ， 
计划 , 投入 资金 配备 了 装备 , 最 终 带 回 了 一 条 狮子 狗 , 错 把 狮子 狗 记 作 了 他 的 狮子 。 
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徐 教授 点 评 道 : “很 有 意思 的 一 个 故事 ， 作 任何 事 目标 始终 是 核心 。 电 信 企 业 的 
客户 细 分 的 目标 可 以 概括 为 : 通过 对 客户 的 人 口 统 计 特 征 、 各 业务 消费 特征 等 信息 的 
有 效 挖掘 和 分 析 ， 人 制定 适宜 的 营销 策略 、 广 告 策略 、 促 销 策略 、 渠 道 策 略 等 来 实现 公 
司 更 好 的 服务 客户 、 增 加 企业 的 语音 业务 和 各 增值 业务 的 使 用 量 和 收入 的 目的 。” 

汪 部 长 思考 了 之 后 说 出 自己 的 观点 : “看 市 场 细 分 ， 我 认为 核心 是 考察 客户 的 行 
为 模式 。 这 类 用 户 在 电话 使 用 上 ， 服 务 使 用 上 ， 是 怎么 样 的 行为 模式 。 再 比如 客户 喜 
欢 到 营业 厅 还 是 到 其 他 渠道 , 所 有 这 些 东西 综合 起 来 ， 我 相信 对 市 场 细 分 来 说 也 是 非 
常 重要 的 ”。 


徐 教授 不 断 地 点 头 示意 ， 在 教室 中 巡视 ， 大 家 纷纷 发 表 自 己 的 意见 。 


“在 我 们 电信 业界 中 ,最 出 名 的 市 场 细 分 的 一 个 代表 就 是 移动 。 其 下 三 大 品牌 定 
位 : 全 球 通 、 动 感 地 带 、 神 州 行 ， 市 场 细 分 就 做 得 很 好 。 以 动感 地 带 为 例 ， 一 般 用户 
特征 是 年 龄 在 25 岁 以 下 ， 在 校 学 生 ， 有 一 定 彩 铃 和 上 网 需求 ， 容 易 接 受 新 鲜 事 物 。 
正 是 2003 年 动感 地 带 的 推出 ， 进 一 步 巩 固 了 其 行业 老大 的 地 位 。” 作 为 熟知 电信 业 
的 资深 入 士 ， 铁 路 的 高 局 长 修 侃 而 谈 。 


听 完 铁路 的 高 局 长 讲述 后 ， 移 动 公司 的 梁 总 也 说 道 ， “中 国 移动 认定 25 岁 以 下 
的 年 轻 新 一 代 消 费 群体 将 成 为 未 来 移动 通信 市 场 最 大 的 增值 群体 ， 因此 , 将 以 业务 为 
导向 的 市 场 策略 率先 转向 了 以 细 分 客户 群体 为 导向 的 品牌 战略 ， 锁 定 15 一 25 岁 年 龄 
段 的 学 生 、 年 轻 白领 ， 打 造 新 的 增值 市 场 。 事 实证 明 ， 锁 定 这 一 消费 群体 来 主打 自己 
的 新 品牌 ， 使 中 国 移动 动感 地 带 品 牌 获 得 了 巨大 成 功 ”。 

徐 教授 接 过 话题 说 道 : “大 家 都 说 得 非常 好 ， 基 本 上 很 全 面 了 ， 每 个 人 都 从 自己 
的 角度 进行 了 描述 。 近 几 年 ， 随 着 3G 技术 的 发 展 ， 电 信 业 发 展 日 趋 成 熟 。 市 场 细 分 
的 工作 也 越 来 越 具体 ， 对 不 同 客户 的 消费 习惯 、 缴 费 方式 、 业 务 了 解 途径 等 均 有 其 独 
特 的 特点 ， 更 多 的 时 候 需 要 针对 某 时 间 段 、 某 类 用 户 制定 一 个 营销 计划 。” 

台 下 一 个 学 员 说 : “ 徐 教授 ， 你 还 是 外 蝎 打 灯笼 一 一 照旧 〈 筋 )， 结 合 一 个 例子 
给 我 们 讲 讲 。” 
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徐 教授 回应 道 : “在 数据 挖掘 中 ， 经 常 应 用 的 方法 是 聚 类 。 与 分 类 模型 有 着 本 质 
的 区 别 ， 聚 类 模型 属于 非 预测 模型 〈 描 述 型 模型 ) 。 聚 类 模型 解决 的 问题 是 对 用 户 进 
行 分 组 (或 者 叫 分 群 ), 特征 相似 的 用 户 在 一 个 组 内 , 特征 不 同 的 用 户 分 在 不 同 的 组 。 


“ 那 细 分 过 程 中 一 般 考虑 的 维度 是 什么 呢 ? ” 台 下 一 个 学 员 提问 道 。 

铁路 的 高 局 长 说 : “一 般 地 ， 结 合 人 口 统计 特征 ， 是 从 价值 和 行为 两 维 属性 进行 
电信 客户 细 分 ， 从 而 实现 了 客户 的 人 口 特征 一 价值 一 行为 的 三 维 细 分 。 并 对 客户 价值 
一 行为 的 一 级 细 分 的 结果 进行 特征 刻画 ， 为 营销 策划 提出 参考 建议 。 比 如 全 球 通 的 
88 套餐 系列 ， 就 是 考虑 到 高 价值 客户 的 商旅 行为 而 设计 。” 


人 口 统计 


行为 方式 


徐 教授 进一步 解释 道 : “从 分 群 分 类 的 角度 来 讲 ， 有 各 种 不 同 的 纬度 ， 我 们 注重 
的 是 什么 呢 ? 前 面 有 人 已 经 说 过 了 ， 主 要 按照 用 户 的 消费 行为 ， 即 他 /她 打 电 话 的 有 具 
体 行为 。 如 果 用 统计 的 方法 〈 年 龄 、 性 别 、 地 区 等 ) ， 这 个 很 快 就 可 以 做 出 来 。 但 是 ， 
这 个 太 简单 ， 我 们 要 用 更 多 的 变量 ， 来 做 行为 方面 的 分 群 分 类 ”。 


台 下 一 个 学 员 问 道 : “ 徐 教 授 ， 在 聚 类 的 过 程 中 ， 需 要 注意 什么 呢 ? ” 
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徐 教授 解释 说 : “ 聚 类 模型 不 需要 目标 变量 ， 只 需要 给 定 自 变 量 ， 聚 类 模型 就 可 
以 自动 地 对 用 户 进行 分 组 ， 输 出 每 个 样本 对 应 的 组 编号 。 选 择 聚 类 所 需 的 变量 是 构建 
聚 类 模型 最 关键 的 工作 ， 变 量 的 选择 往往 取决 于 应 用 的 目标 要 求 。” 


“具体 的 应 用 目标 ? 能 不 能 举 个 例子 呢 ? ”另外 一 个 学 员 说 。 


徐 教授 说 : “以 电话 语音 业务 来 说 ， 想 了 解 目前 客户 的 语音 分 布 情况 。 就 可 以 | 
通话 的 相关 数据 变量 〈 比 如 本 地 主 叫 、 本 地 直拨 长 途 、 漫 游 主 叫 、 漫 游 被 叫 、 通 话 时 
长 、 通 话 次 数 等 ) ， 利 用 聚 类 技术 把 客户 刻 划 成 4 个 类 型 : 呼 入 为 主 、 长 途 强势 、IP 
突出 、 夜 间 积极 。” 
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一 个 学 员 问 道 : “ 徐 教授 ， 那 有 了 这 个 市 场 细 分 结果 ， 怎 么 制定 营销 策略 呢 ? ” 


徐 教授 :“ 这 个 方法 就 很 多 了 , 比如 长 途 强势 组 , 可 以 针对 此 组 客户 推荐 省 内 “两 
城 一 家 ”和 省 际 定向 长 途 包 ; 再 比如 针对 夜间 积极 的 组 可 主动 推荐 忙 闲 时 价格 差异 化 
的 语音 套餐 ; 针对 呼 入 为 主 的 客户 组 〈 这 部 分 以 老人 为 主 ) 可 以 推荐 免 月 租 的 套餐 或 
者 进行 家 庭 宽带 业务 捆绑 等 。” 


铁路 的 高 局 长 感慨 道 : “ 听 了 很 多 次 关于 市 场 细 分 的 讲座 ， 像 徐 教授 这 么 专业 、 
又 这 么 懂 业 务 的 人 真是 很 少 , 今天 学 习 了 很 多 。 相 信 进 行 了 良好 的 客户 群体 细 分 之 后 ， 
必定 能 帮助 我 们 电信 业 更 好 地 进行 客户 关系 管理 ， 提 供 更 优质 、 更 专业 、 更 贴心 的 服 


8.2 ”精确 营销 


马上 就 要 上 课 了 ， 大 家 都 被 大 屏幕 上 的 题目 “数据 挖掘 在 精确 营销 中 的 应 用 ” 震 
住 了 ， 私 下 三 五 成 群 的 窃窃 私语 。 


“精确 营销 是 个 什么 概念 啊 ， 头 一 回 见 。” 有 一 个 学 员 说 道 。 


“大 众 营 销 我 倒是 听 说 过 ， 但 是 精确 营销 也 不 知道 是 什么 呢 。” 另 外 一 个 学 员 也 
不 知道 。 

徐 教 授 这 时 走 进 了 教室 ， 说 道 : “营销 学 中 有 著名 的 “二 八 定律 ”和 “长 尾 理 
论 ” 。“ 二 八 定律 ”说 的 是 企业 应 该 关注 重要 的 人 和 重要 的 事 ， 即 重点 针对 创造 80% 
利润 的 20% 的 客户 做 营销 。” 

“是 这 么 个 理 ， 应 该 抓 主要 问题 嘛 。 那 “长 尾 理论 ”说 的 是 什么 呢 ? ”人 台 下 的 华 
润 万 家 的 万 总 急切 地 问 道 。 

徐 教授 说 道 : “以 移动 电话 运营 商 的 彩铃 业务 为 例 ， 可 以 供 客户 下 载 的 歌曲 有 上 
万 首 ， 这 样 用 户 便 面 临 着 无 限 的 选择 ， 而 其 中 的 每 一 首 歌 曲 都 有 可 能 被 用 户 下 载 ， 尽 
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管 绝 大 部 分 歌曲 下 载 的 需求 和 实际 下 载 量 并 不 高 , 但 这 些 处 于 长 尾部 分 的 下 载 量 占 总 
下 载 量 的 比例 加 在 一 起 却 可 能 超过 正 态 曲 线 分 布 中 处 于 头 部 位 置 主流 歌曲 的 比例 , 也 
就 是 说 那些 不 流行 的 、 占 绝 大 多 数 的 彩铃 相对 于 流行 的 、 少 数 主流 彩铃 所 创造 的 收入 
和 利润 要 更 多 ， 这 就 是 目前 颇 为 流行 的 长 尾 理 论 。” 

30000 
下 
载 25000 
充 
数 20000 


15000 
10000 
5000 


0 
听 完 徐 教授 的 举例 介绍 ， 大 家 都 点 头 示意 明白 。 
接着 ， 徐 教授 说 : “长 尾 理 论 告诉 我 们 ， 不 仅 要 关注 处 于 传统 需求 曲线 上 那个 代 
表 畅 销 品 的 头 部 ， 更 要 关注 所 谓 冷 销 品 的 长 尾部 ， 这 就 需要 我 们 要 更 深入 地 研究 目标 
客户 群体 和 个 体 之 间 的 需求 差异 。 精 确 营销 正好 能 帮助 我 们 更 好 地 分 析 和 研究 目标 客 
户 群 体 和 个 体 需 求 ”。 


徐 教授 引入 到 正题 了 ， 大 家 也 更 加 专心 了 。 


徐 教授 说 : “市 场 竞争 日 趋 激烈 ， 客 户 出 现 了 日 趋 个 性 化 的 偏好 与 需求 。 面 对 客 
户 的 多 样 化 、 层 次 化 和 个 性 化 的 偏好 与 需求 ， 传 统 大 众 化 的 营销 就 失去 了 优势 。 大 家 
上 课 前 的 讨论 我 听见 了 ， 其 实 大 众 营 销 和 精确 营销 一 个 重要 区 别 就 是 : 精确 营销 的 推 
广 销售 群体 是 有 针对 性 的 目标 用 户 ， 而 传统 营销 则 面 对 的 是 所 有 大 众 。” 


“现代 营销 之 父 菲 利 普 * 科 特 勒 先生 曾 指出 : 促销 费用 的 大 部 分 都 打 了 水 漂 ， 仅 
有 L10 的 促销 活动 能 得 到 高 于 5% 的 响应 率 ， 而 这 个 可 怜 的 数字 还 在 逐年 递减 。 徐 教 
授 ， 这 样 针 对 性 的 选 定 目标 用 户 进行 营销 ， 就 可 以 节省 广告 宣传 费用 ， 收 益 能 提高 不 


少 吧 ? ” 台 下 一 个 学 员 小 声 地 问 。 
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徐 教授 : “假设 某 企 业 有 客户 群 25 万 人 ， 和 希望 对 他 们 做 一 次 邮寄 的 促销 活动 ， 
每 一 个 用 户 邮 寄 成 本 为 1.5 元 。 如 果 客 户 对 促销 活动 响应 了 ， 平 均 能 带 来 200 元 的 利 
润 。 对 25 万 用 户 全 部 邮寄 ， 如 果 响 应 率 在 1% 左 右 ， 那 么 收益 了 125000 元 。” 


大 家 都 惊讶 广告 支出 费用 的 庞大 ， 想 着 若是 换 了 小 公司 ， 岂 不 是 企业 不 能 承受 之 
重 。 


徐 教授 接着 讲 到 :,“ 通 过 精确 的 目标 用 户 筛选 ,选择 2.5 万 用 户 ( 取 总 用 户 的 10%)， 
如 果 响 应 率 达 到 5%( 取 原来 的 5 倍 ) ， 那 么 收益 为 212500， 比 对 全 体 用 户 邮 和 寄 的 收 
益 提 高 了 87500 元 。” 

鼓 风 动 力 集团 的 王 总 提问 道 : “ 徐 教授 ， 通 过 这 个 例子 我 们 都 看 到 精确 营销 在 节 
约 营销 成 本 、 提 高 利润 水 平 上 无 疑 比 传统 营销 更 具 优 势 。 但 是 这 个 例子 成 立 前 提 有 一 
个 假设 ， 就 是 筛选 10% 的 用 户 、 响 应 率 要 达到 5% (是 原来 的 5 倍 ) ， 精 确 营销 怎么 
做 到 这 一 点 昵 ?” 


鼓 风 动 力 集团 的 王 总 一 问 之 后 ， 大 家 也 都 意识 到 了 这 个 问题 ,都 在 等 待 徐 教授 的 
解答 。 


徐 教授 不 慌 不 忙 地 说 道 : “这 问题 提 得 相当 好 ， 也 正 是 我 要 给 大 家 讲 的 。 精 确 营 
销 是 一 个 基于 数据 分 析 的 量化 过 程 ， 对 用 户 使 用 行为 和 偏好 的 精准 衡量 和 分 析 ， 从 而 
实现 在 合适 的 时 间 、 合 适 的 地 点 精确 推荐 给 合适 的 人 。 而 传统 营销 更 多 采用 市 场 调研 
方式 了 解 客 户 消费 行为 及 偏好 ， 定 性 分 析 和 主观 因素 要 更 多 ， 而 且 客户 某 些 潜在 的 需 
求 和 间接 的 偏好 是 无 法 通过 调研 得 出 所 有 答案 的 。” 


刘 经 理 激 动 地 说 道 : “ 哦 ， 大 众 营销 好 比 古代 打仗 的 时 候 ， 知 道 有 敌人 ， 但 是 了 
解 敌 人 不 够 透彻 ， 乱 射箭 ， 命 中 率 就 比较 低 。 精 确 营 销 呢 ， 就 好 比 熟知 敌人 的 特性 ， 
锁定 目标 进行 攻击 。 虽 然 发 出 的 箭 不 多 了 ， 但 命中 率 反 而 大 大 提高 了 ”。 
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台 下 一 个 学 员 打 趣 道 : “ 刘 经 理 真是 有 意思 ， 从 某 种 程度 上 来 说 ， 营 销 还 真是 像 
打仗 ”。 


徐 教授 : “我 们 都 知道 武大 郎 死 得 很 惨 ， 但 真正 知道 武大 郎 临 死 前 最 后 一 名 话 内 
容 是 什么 的 人 并 不 多 。 事 实 上 ， 经 过 多 方 考证 ， 最 终 发 现 武 大 郎 对 潘 金 轩 讲 的 最 后 一 
句 话 是 “ 炊 饼 要 做 得 大 ! ， 至 于 为 什么 要 做 得 大 ， 潘 金莲 并 不 明白 。” 


大 家 都 纳 问 徐 教授 怎么 突然 讲 起 水 浒 了 ， 还 是 个 外 传 ， 都 兴致 勃勃 地 等 待 下 文 。 


徐 教授 继续 说 道 : “ 潘 金 茵 听 了 大 郎 的 临终 嘱 咯 之 后 ， 以 后 的 炊 饼 都 做 得 很 大 ， 
不 过 她 发 现 不 管 小 炊 饼 还 是 大 炊 饼 都 不 影响 她 的 销售 业绩 ， 因 此 很 疑惑 ， 就 去 问 王 婆 
为 什么 大 郎 死 前 说 要 把 炊 饼 做 得 大 。 王 婆 不 愧 老 江湖 了 , 她 告诉 金莲 : 大 郎 的 个 子 矮 ， 
把 炊 饼 卖 给 客户 的 时 候 ， 怕 那些 人 弯 腰 够 炊 饼 ， 如 果 做 得 大 一 些 ， 客 人 不 用 弯 腰 也 可 
以 够 到 大 郎 的 炊 饼 。” 


“原来 是 这 么 回 事 。” 台 下 的 学 员 忱 然 大 悟 。 
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徐 教授 幽默 地 说 : “可 是 武大 郎 忘 记 了 ， 那 些 买 潘 金 莲 炊 饼 的 人 却 并 非 高 个 子 ， 
根本 用 不 着 大 炊 饼 这 一 招 ， 而且 找 潘 金 鞍 买 炊 饼 的 人 更 多 关注 的 是 她 的 脸 ， 而 不 是 手 
中 的 炊 饼 。” 


大 家 都 被 逗乐 了 , 可 是 大 家 都 还 不 明白 徐 教授 讲 的 这 个 “大 郎 遗嘱 ” 有 什么 用 意 。 


徐 教授 揭 开 谜底 说 : ““ 大 郎 遗 嘱 ” 的 笑话 告诉 我 们 : 对 你 来 讲 ， 精 准 定位 并 能 
恰当 把 握 的 群体 ， 却 未 必 是 别人 眼中 具有 定位 的 群体 。 所 以 ， 做 精确 营销 的 时 候 ， 如 
何 确定 一 个 大 家 都 认为 是 有 价值 的 目标 对 象 呢 ? ” 


原来 徐 教 授 讲 “大 郎 遗 嘱 ” 故 事 的 “ 醇 仿 之 意 ”在 这 呢 , 大 家 默契 地 回答 道 :“ 数 
据 挖掘 ! ” 


徐 教授 特别 用 一 句 东北 方言 说 : “哎呀 妈 呀 ， 大 家 都 老 有 默契 了 。” 
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随后 ， 他 顺 着 刚才 的 话题 继续 说 道 : “精确 营销 解决 的 问题 是 : 哪些 用 户 是 某 个 
产品 或 者 营销 活动 的 目标 用 户 ? 每 个 用 户 最 适合 被 推荐 的 产品 是 什么 ? 数据 挖掘 正 
是 通过 对 客户 消费 行为 数据 和 历史 规律 的 挖掘 与 分 析 ， 进 而 可 以 找到 目标 用 户 的 特 
征 ， 实 现 以 客户 为 中 心 的 精确 营销 ”。 


“ 徐 教授 ， 那 精确 营销 的 时 候 ， 经 常用 到 的 数据 挖掘 手段 有 哪 几 种 呢 ? ” 台 下 一 
个 学 员 问 道 。 


徐 教授 解释 道 : “在 精确 营销 领域 ， 数 据 挖 掘 范围 很 广 ， 比 如 分 类 、 聚 类 、 关 联 
等 。 今 天 我 们 就 学 习 一 下 关联 在 精确 营销 中 的 应 用 。 关 联 模型 主要 可 以 解决 两 大 类 问 
题 : 一 是 对 用 户 进行 商品 推荐 ， 即 交叉 销售 问题 ; 二 是 哪些 商品 在 一 起 销售 更 好 ? 即 
捆绑 销售 问题 。” 


“交叉 销售 ? 捆绑 销售 ? 今天 上 课 新 名 词 还 真 不 少 。” 台 下 一 个 学 员 说 。 


徐 教授 回答 : “对 ， 交 叉 销售 ， 就 是 发 现 客户 有 多 种 需求 ， 通 过 销售 多 种 相关 产 
品 或 服务 的 营销 方式 。 比 如 ， 某 碳酸 饮料 厂商 把 自己 的 饮料 和 薯 片 捆绑 在 一 起 销售 ， 
年 轻 人 在 吃 薯 片 的 时 候 ， 喜 欢 喝 碳酸 饮料 ， 薯 片 降价 ， 自 然 会 促进 这 种 饮料 的 销售 。” 


移动 公司 的 梁 总 说 : “ 徐 教授 ， 我 明白 了 。 前 面 你 讲 过 : 关联 模型 主要 解决 的 问 
题 是 研究 产品 购买 的 关联 性 ， 即 买 A 产品 的 同时 是 否 会 对 B 产品 也 感 兴趣 。 
案例 中 交 x 又 和 捆绑 销售 的 应 用 就 是 发 现 购买 饮料 的 同时 购买 莫 片 的 可 能 性 比较 大 。” 

华润 万 家 的 万 总 说 : “对 ， 我 也 记得 前 面 说 过 : 关联 模型 又 叫 购物 篮 分 析 ， Co 
市 购物 时 一 个 购物 车 中 往往 会 放 多 种 不 同 的 商品 ,i 人 
些 商 品 之 间 可 能 会 存在 众多 意料 之 中 或 意料 之 外 的 关联 性 。” 

徐 教授 进一步 阐述 : “你 们 都 说 得 不 错 ， 关 联 模型 中 度量 两 个 产品 关联 性 强 弱 主 
要 用 三 个 指标 : 支持 度 、 可 信 度 和 提升 度 。 考 考 大 家 对 三 个 指标 的 认识 ， 谁 先 来 说 说 
什么 是 支持 度 ? ” 
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“支持 度 ，Support， 就 是 表示 A、B 同时 购买 的 人 数 占 总 购买 人 数 的 比例 。 支 持 
度 越 高 ， 表 示 商 品 同时 购买 A、B 的 人 数 越 多 ， 这 两 个 商品 越 主流 。” 台 下 一 个 学 员 
回答 道 。 

徐 教授 说 : “回答 得 很 正确 ， 可 信和 度 呢 ? 谁 来 讲 讲 ? ”。 


“可 信和 度 ，Confidence， 表 示 在 购买 A 商品 的 人 中 同时 购买 了 B 商品 的 比例 。 可 
信和 度 越 高 ， 表 示 购 买 了 A 商品 后 再 购买 B 商品 的 可 能 性 就 越 大 。” 台 下 的 另外 一 个 
学 员 回答 道 。 

华润 万 家 的 万 总 举 手 说 道 : “提升 度 ，1lift， 可 信 度 除 以 总 用 户 中 购买 过 B 商品 
的 用 户 占 比 。 提 升 度 越 高 ， 表 示 购 买 了 A 商品 对 购买 B 商品 的 影响 度 就 越 大 ， 也 即 
他 们 之 间 的 相关 性 就 越 强 。” 


徐 教授 点 评 道 ， “呵呵 ， 都 有 抢答 的 了 ， 回 答 也 很 正确 ， 加 十 分 。 以 电信 运营 商 
的 彩铃 为 例 ,我 们 把 歌曲 或 者 歌手 当做 商品 来 研究 ， 用户 在 订购 歌曲 或 者 某 个 歌手 的 
歌曲 时 的 关联 性 如 下 图 所 示 : ” 


下 载 周 杰 伦 3 子 其 他 歌手 的 可 能 性 


王力宏 4.0% 
林俊杰 3.5% 
SHE 3.2% 


潘玮柏 


蔡依林 


= 


徐 教授 针对 关联 的 歌手 结果 解释 道 : “从 上 图 可 以 看 出 : 下 载 过 周杰伦 歌曲 的 
户 中 ,还 下 载 过 王力宏 的 比例 最 高 ， 林 俊杰 次 之 。 因 此 可 以 针对 下 载 过 周杰伦 歌曲 
户 推荐 王力宏 或 者 林俊杰 的 歌曲 交叉 销售 。” 


besy 


刘 经 理 说 : “这 个 结果 我 觉得 有 一 定 的 准确 性 ， 就 拿 我 女儿 来 说 ， 整 天 在 家 念 念 
J 明 的 就 是 周杰伦 、 王 力 宏 、 林 俊杰 ， 有 演唱 会 这 丫头 必然 去 凑热闹 。” 


冶 


台 下 另外 一 个 学 员 说 : “ 哦 ， 根 据 这 个 关联 结果 ， 电 信和 营销 彩铃 的 人 员 就 可 以 把 
周杰伦 、 王 力 宏 、 林 俊杰 的 歌曲 捆绑 在 一 起 打折 销售 给 客户 啦 。” 

徐 教授 : “上 面 的 关联 彩铃 是 基于 歌手 的 ， 下 面 我 们 一 起 看 看 关于 歌曲 之 间 的 关 
联 性 。” 


求 佛 子 其 他 歌曲 的 可 能 性 


你 是 我 的 玫瑰 人 花 
你 到 底 爱 谁 
老公 老公 我 爱 你 
两 只 蝴蝶 

不 怕 不 怕 


电信 业 的 铁路 的 高 局 长 激动 地 说 : “ 徐 教授 ,看见 这 个 图 我 终于 明白 了 。 根据 基 
于 关联 性 的 结果 就 可 以 进行 捆绑 销售 : 将 “ 求 佛 ”、“ 你 是 我 的 玫瑰 花 ”、“ 你 到 底 
爱 谁 ”等 歌曲 捆绑 销售 3 元 。” 
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徐 教授 点 头 后 讲 道 : “对 ， 关 联结 果 应 用 在 捆绑 销售 中 的 时 候 ， 还 有 一 个 重要 的 
原则 : 目标 顾客 的 一 致 性 。 也 就 是 说 ， 捆 绑 在 一 起 的 几 种 商品 ， 其 主流 的 消费 者 群体 
应 该 是 一 致 的 。 比 如 年 轻 人 多 喜欢 周杰伦 等 流行 音乐 , 中 老年 人 喜欢 比较 怀旧 、 古 典 、 
民族 音乐 ， 那 么 在 推送 捆绑 彩铃 时 若是 胡乱 推荐 念 怕 就 不 会 有 良好 的 促销 效果 。” 


听 到 这 里 ， 大 家 都 很 受 启发 ， 原 来 数据 挖掘 在 精确 营销 里 面 可 以 真正 做 到 以 客户 
为 中 心 ， 不 吹 一 点 牛 。 


电力 刘 总 的 一 席 话 道 出 了 大 家 的 心声 : “数据 挖掘 技术 作为 支撑 精确 营销 的 重要 
手段 ， 随 着 企业 对 精确 营销 认识 的 提升 和 需求 的 加 强 以 及 其 本 身 算法 的 不 断 完善 ， 必 
将 在 未 来 的 营销 领域 中 发 挥 强大 的 作用 。” 


徐 教授 也 鼓励 在 座 的 学 员 :“ 随 着 商业 竞争 的 日 益 激烈 和 信息 技术 的 突破 性 进展 ， 
营销 界 正在 爆发 一 场 意义 深远 的 革命 , 无 论 是 营销 理论 还 是 实践 都 面临 着 一 种 结构 化 
的 转型 ， 从 传统 的 、 大 众 的 和 粗糙 的 方法 跃 变 到 深度 化 、 细 分 化 和 精确 化 的 模式 。 任 
何 公司 要 在 这 场 革命 中 占领 先 机 ， 都 必须 坚定 不 移 地 聚焦 客户 ， 并 开始 向 精确 营销 转 
型 。” 


8.3 业务 响应 


徐 教授 : “对 于 电信 企业 来 说 ， 竞 争 已 不 仅仅 来 自行 业内 部 ， 终 端 企业 、 互 联网 
企业 等 都 在 动摇 其 价值 链 的 核心 地 位 ， 使 运营 商 的 管道 化 趋势 日 益 明显 。” 


铁路 的 高 局 长 认同 地 讲 到 : “是 的 ， 现 在 竞争 越 来 越 激烈 。 面 对 严峻 的 形势 ， 电 
信 企 业 需 要 重新 定位 。 未 来 电信 企业 除 提供 最 基本 的 语音 、 短信 、 彩信 等 通信 服务 外 ， 
更 重要 的 是 提供 差异 化 的 专 有 服务 和 开放 电信 能 力 搭建 差异 化 的 数字 内 容 集成 平 


人 » 
吕 。 


徐 教授 : “与 语音 业务 发 展 进 入 饱和 期 不 同 ， 数 据 业 务 近 期 取得 了 快速 发 展 ， 运 
营 商 如 果 想 保持 其 原 有 的 收益 ， 就 不 会 甘心 沦 为 管道 商 ， 必 须 向 数据 业务 转型 。” 


-= 


数据 控 所 


台 下 的 电力 的 刘 总 说 道 : “推出 业务 ， 关 键 是 看 需求 ， 需 求 是 源 动 力 。” 

移动 公司 的 梁 总 也 表述 道 “是 的 ， 市 场 调研 能 帮助 我 们 了 解 一 些 业务 的 需求 。 
此 外 ,在 业务 运行 之 前 ， 没 有 条 件 预演 的 情况 下 需要 预测 市 场 反应 。 比 如 你 推出 一 个 
套餐 、 新 业务 ， 什 么 人 来 响应 你 。” 


华润 万 家 的 万 总 笑 着 说 道 : “想起 关于 市 场 反应 的 一 个 笑话 : 巡回 调查 几 个 星期 
后 ， 推 销 员 向 上 司 报告 : 市 场 上 只 有 两 种 反应 。 上 司 问 哪 两 种 ， 推 销 员 说 : “ 滚 出 去 ” 
和 “ 住 口 ”两 种 。 虽 然 是 个 笑话 ， 但 是 我 们 从 一 个 侧面 可 以 看 出 : 想 知道 推广 业务 的 


wm 


市 场 反应 还 是 有 一 定 难度 的 。” 


徐 教授 说 道 : “这 就 是 我 们 本 节 课 的 核心 内 容 : 业务 响应 方面 ， 数 据 挖 掘 能 做 些 
村 次 


看 了 看 周围 , 汪 部 长 说 :“ 徐 教授 , 我 看 大 家 的 意思 都 等 着 你 讲 一 个 实际 例子 呢 。” 
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徐 教授 摆 了 摆手 ， 接 着 说 : “好 ， 那 就 顺 大 家 的 意思 。 假 设 现在 某 电信 运营 商 正 
准备 推销 某 种 增值 业务 , 需要 寻找 有 购买 潜力 的 目标 用 户 特征 ， 即 哪些 客户 可 能 会 天 
这 个 增值 业务 响应 积极 。” 


台 下 一 个 学 员 说 : “ 徐 教授 ， 您 就 别 卖 关子 了 。 目 标 我 们 已 经 明确 了 ， 就 是 确定 
营销 某 增值 业务 的 响应 用 户 群 。 在 这 之 前 ， 需 要 准备 些 啥 ? ” 


台 下 的 另 一 个 学 员 说 道 : “我 知道 一 些 ， 一 般 电信 中 用 户 的 行为 数据 包含 : 电话 
使 用 的 方式 、 服 务 使 用 的 种 类 ; 用 户 的 人 口 统计 数据 包含 :年龄 、 性 别 、 地 址 ; 细 分 
中 可 能 还 需要 的 一 些 其 他 数据 , 比如 帐 账户 设立 时 间 、 网 络 质量 、 客 户 关怀 、 级 别 等 。 


徐 教授 赞许 地 说 : “一 看 就 是 内 行 ， 简 洁 到 位 。 数 据 有 了 ， 我 们 就 该 想 着 用 什么 
方法 了 。 在 建立 客户 业务 响应 模型 时 ， 应 用 到 数据 挖掘 手段 主要 有 分 类 技术 ， 这 里 我 
们 就 用 分 类 来 说 说 。” 


“分 类 ? 这 之 前 我 们 接触 过 。 当 时 学 的 分 类 的 应 用 实例 ,但 是 时 间 久 了 记 不 清楚 
了 。” 台 下 一 个 学 员 抓 了 抓 自己 的 头 说 道 。 


鼓 风 动 力 集团 的 王 总 得 意 地 说 道 “这 个 我 记得 ， 分 类 原理 我 比较 清楚 。 分 类 是 
数据 挖掘 应 用 最 广泛 的 应 用 之 一 ， 属 于 预测 性 模型 。 分 类 模型 解决 的 问题 是 对 类 别 未 
知 的 用 户 进行 预测 ， 以 判断 其 属于 哪个 类 别 的 概率 比较 高 。” 


徐 教授 肯定 地 点 了 点 头 ， 环 视 了 一 圈 下 面 学 员 ， 期 待 更 多 人 发 表 自己 的 意见 。 


移动 公司 的 梁 总 也 不 甘 示 弱 地 说 : “分 类 模型 的 构建 需要 一 个 类 别 已 知 的 历史 样 
本 一 一 训练 样本 。 由 于 训练 样本 中 每 一 个 个 体 的 类 别 都 是 明确 的 ， 因 此 可 以 通过 分 类 
的 算法 找 出 能 显著 区 别 不 同类 别 的 典型 特征 ， 这 些 特 征 就 是 分 类 模型 的 结果 。 通 过 训 
练 样本 找 出 来 的 特征 ， 对 新 样本 进行 预测 ， 以 判断 满足 不 同 特征 的 用 户 属于 不 同 的 类 
别 。” 


徐 教授 说 : “大 家 都 讲 得 非常 好 。 决 策 树 是 分 类 模型 中 最 常用 的 方法 之 一 ， 具 有 
预测 精度 高 、 预 测 结果 稳定 性 好 、 结 果 易 理解 等 优点 。 除 了 决策 树 之 外 ，Logistic 回 
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归 、 神 经 网 络 、 判 别 分 析 等 方法 也 可 以 构建 分 类 模型 。 这 里 我 就 给 大 家 展示 一 下 决策 
树 的 分 类 方法 。” 


台 下 一 个 学 员 问 道 : “ 徐 教授 ， 按 照 数据 挖掘 的 流程 。 现 在 的 步骤 应 该 是 数据 预 
处 理 了 ， 那 么 在 数据 准备 选取 中 ， 需 要 注意 什么 呢 ? ” 


“强调 一 点 : 保证 数据 的 平衡 型 ， 合 理 分 配 训练 样本 和 测试 样本 。 比 如 这 里 可 以 
选取 23 万 客户 , 在 训练 样本 中 有 33.6% 的 用 户 已 经 订购 了 号 簿 管家 这 个 增值 业务 ( 定 
义 为 目标 变量 取 值 1 ) ， 其 余 66.4% 的 用 户 均 未 订购 (定义 为 目标 变量 取 值 0) 。” 
徐 教授 回答 道 。 


“号 短 管 家 这 个 业务 是 什么 ?”” 台 下 一 个 学 员 提 问 道 。 


移动 公司 的 梁 总 解释 道 : “号 短 管 家 是 中 国 移动 推出 的 一 个 专业 服务 于 移动 电话 
用 户 的 通讯 录 业 务 ， 通 过 Web、WAP、 短 信 、SyncML 等 多 种 方式 ， 为 移动 电话 用 户 
提供 最 为 便捷 、 安 全 、 有 效 的 个 人 地 址 服务 。 可 以 通过 手机 短信 、WAP、PC 等 多 种 
个人 浊 相 本 进 全 维和 、 生理 > 村 讽 - 古 知 影 隐形 的 ， 洒 的 划 计 切 … 三 还 提货 
了 短信 和 群发、 电子 名 片 册 、 短 信 收 藏 夹 、 日 程 管理 等 增值 功能 。 

徐 教授 接着 说 : “采用 决策 树 方法 构建 分 类 模型 ， 可 以 看 到 满足 “ARPU>120” 
并 且 “ 主 叫 比例 <67%” 特 征 的 用 户 中 有 50% 订 购 了 号 短 管 家 ， 显 著 高 于 总 体 中 的 
33.6%， 因 此 可 以 认为 满足 该 特征 的 用 户 购买 号 蚕 管家 这 个 增值 业务 的 可 能 性 比较 
高 。” 


看 大 家 全 神 贯 注 ， 徐 教授 接着 说 : “同样 ， 我 们 还 可 以 看 到 “ARPU<=120” 并 
且 “短信 条 数 >=50” 并 且 “ 主 叫 比 例 >=84%” 并 且 “缴费 次 数 >=2” 的 用 户 购买 号 簿 
管家 业务 的 可 能 性 会 更 高 ， 达 到 了 64.4%。” 


= 
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ARPU>120 
35496,38.1% 


主 叫 比例 2843%6 
45519,55.9% 


总 体 客户 
232951 
33.6% 


主 叫 比例 <84% 

谈 比例 为 训练 样 | ARPU<=120 EZ 

本 中 为 “1” 的。 |197455,32.8% Et 通话 对 端 >20 
占 比 ， 其 他 节点 88206,36.7% 
意思 相同 。 


最 后 ， 徐 教授 说 道 : “现在 我 们 已 经 从 上 图 看 出 来 针对 新 推出 的 号 血管 家 业务 ， 
第 三 组 的 购买 意愿 最 强大 ， 第 二 组 的 相对 较 强 ， 一 组 的 意愿 最 小 。 大 家 都 是 聪明 人 ， 
接 下 来 该 怎么 做 相信 都 有 各 自 的 十 八 般 武艺 了 。” 

刘 经 理 第 一 个 献策 道 : “可 以 获得 每 个 客户 分 组 中 所 有 客户 或 部 分 客户 的 名 单 进 
行 呼叫 。” 

华润 万 家 的 万 总 接着 补充 道 : “可 以 灵活 地 对 形成 的 各 客户 分 组 进行 宏观 观察 和 
微观 细 分 ， 就 是 追踪 和 监视 分 类 结果 。” 


“可 以 借助 计算 机 程序 动态 观测 客户 行为 的 变化 及 其 所 属 客户 细 分 群体 的 变化 ， 
测算 前 后 的 收入 变化 。” 鼓 风 动 力 集团 的 王 总 落实 到 企业 最 关注 的 利益 收入 上 。 


结合 现在 ， 展 望 未 来 ， 移 动 公司 的 梁 总 说 : “已 经 推广 的 数据 业务 ， 准 备 推广 的 
数据 业务 ， 在 未 来 的 3G 平台 上 ， 这 些 业务 会 更 加 丰富 。 通 过 上 述 对 客户 行为 模式 的 
分 析 ， 能 够 更 好 地 划分 客户 并 进行 针对 性 产品 设计 和 市 场 营销 。” 
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8.4 客户 流失 分 析 


徐 教授 今天 直入 主题 : “开始 上 课 了 。 我 们 先 来 讨论 一 个 问题 : 新 客户 获取 和 老 
客户 保留 。 欢 迎 各 位 学 员 就 这 两 个 问题 分 享 自己 的 看 法 ”。 


航天 的 黄 主任 率先 表态 : “我 觉得 新 获取 客户 比较 困难 : 招揽 一 个 新 的 客户 ， 我 
们 销售 员 需 要 笑脸 相 迎 ， 百 般 讨 好 ， 有 时 候 客户 却 视而不见 ; 在 说 服 一 个 新 客户 的 时 
候 ， 销 售 员 需 要 费 尽 口舌 ， 做 足 工作 ， 但 有 时 客户 需要 另行 比较 。” 

李 经 理 则 持 相反 态度 : “ 打 江山 容易 ， 守 江山 难 。 发 现 老 客户 要 流失 并 采取 措施 
留 住 一 个 老 客户 ， 这 不 是 一 件 容易 的 事情 。” 

电力 的 刘 总 说 : “ 据 第 三 方 调查 研究 表明 : 对 企业 来 说 ， 新 获取 客户 成 本 是 挽留 
客户 的 成 本 的 5 倍 ! ” 

鼓 风 动力 集团 的 王 总 说 : “我 觉得 做 好 老 顾客 的 保留 ， 有 助 于 新 客户 的 获取 。 大 家 
都 知道 口碑 效应 ， 通 过 亲朋 好 友 的 推荐 成 功率 比 企业 自己 去 推荐 ， 成 功 概率 要 高 很 多 。” 

鼓 风 动 力 集团 的 王 总 说 完 关 于 新 老 客 户 获取 看 法 后 ， 启 得 到 了 大 伙 的 一 致 认可 。 

徐 教授 接着 说 道 : “客户 保留 对 企业 生存 发 展 的 重要 性 是 毋庸 置疑 的 。 以 美国 无 
线 业 流失 的 数据 来 看 ， 其 国内 客户 流失 率 ， 一 个 月 是 2%, 全 年 就 是 25%， 非常 巨大 。 
那么 在 面临 如 此 高 的 客户 流失 率 的 情况 下 , 作为 运营 商 应 该 怎么 样 处 理 这 样 的 问题 ? 
整个 客户 流失 管理 ， 已 经 成 为 运营 商 非常 关切 的 问题 。” 


铁路 的 高 局 长 感同身受 地 说 : “客户 流失 是 电信 行业 永远 会 存在 的 一 个 问题 ,无 
法 避免 。 当 一 个 新 的 电信 产品 出 现 的 时 候 ， 在 早期 会 吸引 到 部 分 客户 (比如 一 些 “发 
烧 友 ”或 “尝鲜 族 ，) ,要 是 营销 效果 差 的 话 ， 在 短暂 的 用 户 增长 过 后 ， 就 会 有 一 个 
用 户 数 量 的 下 降 、 流 失 。” 


徐 教授 说 : “在 客户 生命 周期 图 中 ， 我 们 可 以 明显 看 出 : 在 产品 上 市 初期 的 一 段 
时 间 (阶段 A 和 阶段 B) 用 户 呈 增长 趋势 ; 在 用 户 快速 增长 之 后 是 相对 的 成 熟 期 〈 阶 


-244 - 


第 8 章 ”数据 挖掘 在 电信 业 中 的 应 用 


段 C) ， 数 量 稳定 ， 客 户 价值 比较 高 ; 接着 不 可 避免 地 迈 入 阶段 D 和 阶段 王 ， 伴 随 客 
户 总 数 整体 下 降 ， 客 户 为 企业 提供 的 价值 也 跟随 着 下 降 。” 


刻字 汪 诺 


阶段 A: 阶段 B: 阶段 c: 阶段 D: 阶段 E: 
(Acquisition) (Build-up) (Climax) (Decline) (Exit) 
客户 获取 客户 提升 ”客户 成 熟 客户 衰退 客户 离 网 


移动 公司 的 梁 总 问 道 : “ 徐 教授 ， 既 然 客户 流失 对 电信 行业 来 说 是 必然 存在 的 一 
个 问题 ， 且 不 可 避免 。 那 么 面 对 客 户 流失 ， 我 们 能 做 些 什么 呢 ?” 华 以 待 丝 肯定 不 行 ， 
这 与 企业 的 追求 目标 是 相悖 的 。” 


徐 教授 直 奔 主题 解释 道 : “什么 样 的 客户 会 流失 ， 我 们 应 该 怎么 预测 他 们 ， 他们 
为 什么 会 流失 , 我 们 应 该 怎么 挽留 他 们 ， 哪 个 部 分 的 客户 是 我 们 应 该 留 下 来 的 ? 诸如 
此 类 的 问题 都 是 数据 挖掘 可 以 在 客户 流失 方面 做 的 工作 。” 

这 时 ， 铁 路 的 高 局 长 插话 : “一 般 电信 业务 客户 流失 考虑 的 都 是 可 控 因 素 引起 的 
客户 流失 分 析 ， 由 于 不 可 控 原因 《比如 用 户 死亡 ) 造成 的 流失 是 不 考察 的 。 比 如 最 近 
某 客户 没 工作 了 ， 自 然 就 不 想 用 电话 了 ， 座 机 可 能 都 拔 掉 了 。 再 比如 某 客户 的 生活 地 
点 发 生 了 变化 以 前 是 生活 在 沈阳 ， 后 来 去 了 深圳 ) ， 那 肯定 手机 要 换 掉 了 ， 这 个 用 
户 是 挽留 不 了 的 。” 


刘 经 理 提问 : “ 徐 教授 ,刚才 高 局 长 说 到 考察 可 控 因 素 引 起 的 客户 流失 ， 那 针对 
这 类 情况 的 客户 流失 ， 一 般 考 察 哪些 维度 呢 ? ” 


徐 教授 温和 地 解释 道 : “流失 也 可 以 有 各 种 不 同 的 角度 ， 我 给 大 家 简单 举 几 个 例 
子 。 比 如 找 出 其 人 口 特征 ， 如 业务 使 用 情况 及 入 网 时 间 特 征 ， 研 究 表明 入 网 时 间 两 年 
以 上 的 用 户 比 较 稳定 ， 达 到 五 年 以 上 的 流失 率 更 低 。” 
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喝 水 停 了 停 后 ， 徐 教授 接着 说 : “我 们 可 以 找 出 他 /她 的 消费 特征 等 ， 比 如 网 间 
跳 转 造成 客户 流失 ， 考 察 其 很 重要 一 个 因素 就 是 呼叫 转移 ， 重 点 研究 其 交往 圈 。 还 有 
一 些 特殊 考察 ， 比 如 疑似 双 卡 用 户 的 甄别 分 析 ， 这 类 客户 一 个 人 用 2 个 号 码 ， 比 如 上 
一 个 移动 号 码 ， 用 一 个 的 联通 号 码 ， 他 们 的 流失 率 被 证 实 是 非常 高 的 。” 


鼓 风 动 力 集团 的 王 总 祈求 道 : “ 徐 教授 ， 我 对 这 方面 内 容 非 常 感 兴趣 ， 能 不 能 详 
细 地 通过 一 个 例子 来 给 我 们 说 明 一 下 呢 ? ” 


徐 教授 答 道 : “电信 客户 流失 分 析 最 基本 的 方法 是 分 类 和 预测 方法 ， 这 里 举 个 决 
策 树 方法 的 例子 。 它 的 优点 在 于 它 可 以 生成 可 以 理解 的 规则 ， 计 算 量 相对 较 小 ， 可 以 
处 理 连续 字段 ， 并 且 可 以 清晰 地 显示 哪些 字段 比较 重要 。” 


铁路 的 高 局 长 也 谈 起 自己 的 经 验 : “很 多 客户 流失 的 预警， 要 注意 怎么 把 流失 客 
户 能 够 剥离 出 来 。 这 里 并 不 是 针对 一 个 人 做 活动 ， 而 是 要 看 到 ， 哪 个 群体 的 人 的 流失 
概率 非常 高 。” 


徐 教授 接着 讲 : “通过 业务 经 验 ， 针 对 客户 产品 拥有 情况 、 入 网 时 长 、 服 务 开通 
情况 、 优 惠 套餐 信息 、 客 户 投 诉 情况 、 语 音 通话 、 月 租 费 、 优 惠 费用 、 缴 从 费 信 息 等 
进行 筛选 后 ， 入 选 进入 逻辑 回归 模型 参数 ， 将 是 否 流失 作为 目标 函数 。” 


影响 客户 流失 因素 时 间 窗 口 

当月 通话 时 长 降幅 以 11 月 份 的 拆 机 用 户 为 训练 目标 ， 以 8 一 10 月 
当月 通话 次 数 降幅 份 的 数据 为 训练 资料 进行 建 模 ， 之 后 用 9 一 11 月 
当月 消费 额 降幅 份 的 数据 对 12 月 份 的 拆 机 用 户 进行 检验 测试 。 
当前 欠 费 情况 

申请 停机 状态 

月 均 优惠 费用 

当前 优惠 捆绑 到 期 情况 

在 网 时 长 

月 均 投诉 次 数 

使 用 增值 业务 种 类 数 

拨打 党 争 对 手 网 用 户 的 通话 时 长 占 比 

是 否 使 用 家 庭 宽 带 
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华润 万 家 的 万 总 求证 说 : “ 徐 教授 ， 根 据 之 前 关于 决策 树 的 学 习 ， 加 上 刚才 模型 
所 使 用 的 变量 , 最 后 模型 能 计算 出 的 有 : 每 一 个 用 户 是 否 会 流失 , 流失 的 概率 有 多 少 。 
不 知道 是 不 是 我 理解 的 这 个 意思 ? ” 


徐 教授 说 : “很 对 ， 最 后 的 流失 预测 值 我 们 是 反馈 到 一 个 客户 数据 库 里 面 ， 每 天 
更 新 一 次 , 然后 生成 一 个 专门 的 客户 流失 清单 ， 业 务 人 员 一 打开 就 知道 这 个 客户 会 不 
会 流失 ， 如 果 是 0 就 不 会 流失 ， 如 果 是 1 就 可 能 会 流失 。” 


铁路 的 高 局 长 接着 徐 教授 的 话题 说 : “ 现 有 国内 的 流失 分 析 ， 多 以 “月 ”为 单位 ， 
隐藏 了 潜在 的 流失 消费 特征 。 徐 教授 以 “日 ”为 单位 进行 分 析 ， 提 高 了 客户 流失 预测 
的 准确 率 。 将 这 些 信 息 写 回 到 数据 库 的 个 人 信息 里 面 去 ， 业 务 人 员 就 可 以 根据 流失 预 
警 级 别 进行 关注 了 。” 


汪 部 长 问 道 : “真是 智能 化 ， 这 里 一 个 重要 环节 就 是 模型 的 预测 效果 怎么 样 ? 我 
们 也 看 出 来 了 ， 若 是 模型 效果 不 行 玉 怕 会 弄巧成拙。 徐 教授 ， 模 型 准确 性 这 方面 怎么 
评估 呢 ?” 


徐 教授 说 道 : “一 般 地 ， 决 策 树 评价 指标 有 三 个 ， 提 升 率 、 查 全 率 和 命中 率 。 这 
三 个 指标 越 高 ， 表 示 模 型 效果 越 好 。 此 外 ， 加 上 一 个 时 效 性 的 评估 指标 更 合理 些 〈 在 
电信 流失 预测 时 ， 时 间 窗 口 挪动 对 预测 准确 性 有 一 定 影响 ) 。 这 个 想法 是 来 源 于 当初 
大 家 讨论 日 本 地 震 预测 比 国内 高 明 ， 体 现 两 点 ， 第 一 是 准确 率 ， 第 二 是 时 间 提 前 量 ， 
比如 我 能 预测 到 肯定 地 震 ， 但 只 能 在 地 震 前 1 秒 内 ， 基 本 没 意 义 ， 评 价 预测 需要 加 上 
时 间 就 更 为 合理 。” 


评估 指标 决策 树 模 型 评估 指标 解释 

提升 率 客户 的 命中 率 /不 使 用 模型 时 的 流失 率 

查 全 率 被 准确 预测 为 流失 的 客户 /样本 中 流失 总 数 
命中 率 每 组 中 实际 流失 的 客户 /全 组 客户 总 数 


铁路 的 高 局 长 认同 地 补充 道 : “ 徐 教授 说 得 很 有 价值 。 实 践 证 明 ， 数 据 挖 掘 模型 
需要 不 断 调整 ， 模 型 维护 工作 的 简化 是 未 来 研究 的 一 个 方向 。 现 有 的 指标 体系 还 需要 
不 断 完善 和 深入 。 对 于 电信 客户 的 流失 分 析 ， 数 据 业务 的 茵 勃发 展 、3G 的 到 来 等 均 
会 增 减 相关 指标 。” 
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接着 ， 徐 教授 询问 了 一 下 学 员 关 于 防止 客户 流失 的 策略 制定 。 在 前 面 内 容 的 铺垫 
下 ， 大 家 纷纷 发 表意 见 。 
电力 的 刘 总 说 : “关于 客户 流失 管理 策略 制定 ， 比 如 可 以 通过 赞助 一 些 演唱 会 ， 


票 不 卖 ， 只 有 运营 商 的 用 户 才能 拿 到 这 个 票 ， 这 个 是 赞助 性 的 活动 ， 客 户 喜欢 留 在 你 
的 品牌 下 。” 


李 经 理 也 支 招 道 ， “再 比如 俱乐部 ， 高 尔 夫 俱乐部 ， 优 先 客户 资格 方案 ， 金 卡 、 
银 卡 、 钻 石 卡 ， 用 来 挽留 一 些 高 端 用 户 。” 

汪 部 长 补充 道 : “确实 是 ， 可 以 理解 ， 若 是 你 搞 一 个 积分 奖励 计划 ， 对 于 高 端 客 
户 并 不 一 定 有 大 家 想象 的 那么 好 。 你 想 一 年 打 几 万 块 钱 的 电话 换 回 来 一 点 点 东西 , 真 
正 的 高 端 客户 是 不 会 很 在 乎 这 个 积分 奖励 的 , 转向 普通 客户 中 经 常 参加 积分 兑换 活动 
的 人 效果 肯定 绝妙 。” 

下 课 铃 响 了 ， 但 是 大 家 还 意犹未尽 ， 仿 佛 每 个 人 都 是 电信 业 的 工作 人 员 了 ,在 那 
里 商讨 并 献计 献策 。 
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今天 ， 徐 教授 一 进 教室 看 大 家 都 到 了 ， 就 开始 了 徐 氏 开场 ，“ 同 学 们 ， 大 家 都 是 
老 网 民 了 , 但 如 何 衡量 一 个 网 站 运营 是 否 成 功 ? 网 站 中 哪些 内 容 是 人 气 最 旺 的 ? 主要 
访客 是 哪些 人 ? 什么 原因 吸引 他 们 前 来 ? 要 回答 这 些 问 题 是 不 容易 的 , 因为 影响 因素 
太 多 了 ， 但 这 些 问 题 都 属于 今天 我 们 讨论 的 互联 网 和 电子 商务 的 数据 挖 气 的 范畴 。” 


9.1 Web 数据 挖掘 概述 


彭 部 长 呼应 道 : “现在 电 商 间 价格 战 打 的 很 火 ， 也 听 了 这 么 长 时 间 课 ， 早 就 感觉 
他 们 一 定 用 了 数据 挖掘 技术 ， 但 就 是 不 知道 他 们 怎么 用 的 。” 


徐 教授 微微 一 笑 说 : 你 是 个 有 心 人 啊 ! 我 们 已 经 知道 数据 挖掘 是 从 数据 中 提取 新 
的 、 潜 在 有 用 的 知识 的 过 程 ， 将 数据 挖 所 技术 与 Web 技术 结合 起 来 ， 从 互联 网 信息 
中 发 据 出 有 用 的 模式 在 当今 这 个 互联 时 代 就 显得 非常 重要 。 总 体 上 说 Web 挖 据 可 以 
分 为 3 类 。 


a ”第 一 类 是 Web 内 容 挖 据 ， 是 从 文档 内 容 或 其 描述 中 抽取 内 容 ， 主 要 包含 文 
本 挖掘 (包括 text、 HTML、XML 等 格式 ) 和 多 媒体 挖掘 (包括 image、audio、 
Video 等 媒体 类 型 ) ， 


a 第 二 类 是 Web 链接 结构 挖 据 ， 是 从 WWW 的 组 织 和 链接 结构 中 推导 知识 ; 
a ”第 三 类 是 Web 使 用 模式 挖掘 ， 是 从 Web 的 访问 记录 中 抽取 感 兴趣 的 模式 。 


Web 数据 挖掘 分 类 


“Web 内 容 挖掘 (文本 挖掘 和 多 媒体 挖掘 ) 


“Web 链接 结构 挖掘 


“Web 使 用 模式 挖掘 


数据 挖掘 技术 及 其 应 用 
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李 部 长 一 听 彭 部 长 被 表扬 了 ， 就 也 迫 不 急 待 的 说 : “现在 网 购 时 ， 电 商 给 我 推荐 
的 那些 产品 ， 是 不 是 就 是 属于 使 用 模式 挖掘 啊 ? 他 们 通过 我 的 浏览 记录 ， 知 道 我 可 能 
会 对 哪 类 商品 感 兴趣 ， 就 会 给 我 推荐 ” 

徐 教授 答 着 说 : “ 咽 ， 很 对 ， 李 部 长 是 个 会 思考 的 人 ， 实 际 上 Web 挖掘 不 仅 限 
于 一 般 的 日 志 分 析 , 访问 记录 也 是 日 志 的 一 部 分 ， 除了 计算 网 页 浏览 率 以 及 访客 人 次 
外 ， 电 商 的 销售 额 、 微 博 的 评价 、 滞 留 时 间 等 信息 ， 只 要 由 网 络 连 结 在 一 起 的 数据 ， 
Web 挖掘 都 可 以 做 ， 也 可 整合 线 下 及 在 线 的 数据 库 ， 实 施 更 大 规模 的 预测 与 推荐 ， 毕 
竞 凭借 互联 网 的 便利 性 与 渗透 力 再 配合 网 络 行为 的 可 追踪 性 与 高 互动 特质 , 一 对 一 的 
精确 营销 理念 是 最 有 可 能 在 网 络 世界 里 完全 实现 的 。” 

听 徐 教授 这 么 一 说 ， 大 家 更 来 兴致 了 ， 又 是 一 翻 七 嘴 八 舌 的 讨论 。 


徐 教授 用 手 做 了 一 个 下 压 的 手势 ， 说 : “大 家 静 一 静 ， 接 下 来 ， 我 就 和 大 家 一 起 
重点 探讨 数据 挖 扬 技术 在 互联 网 与 直 搜 索 、 电 子 商 务 、 社 交 网 络 等 方面 的 应 用 ,垂直 
搜索 用 户 行为 侧重 于 Web 链接 结构 和 使 用 模式 挖 据 ， 面 向 电子 商务 和 社交 网 络 方面 
则 侧重 于 Web 内 容 挖 所 和 使 用 模式 挖 据 。” 


数据 挖掘 在 互联 网 应 用 分 类 


* 垂直 搜索 


* 电子 商务 


* 社交 网 络 


数据 挖 所 技术 及 其 应 用 
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9.2 垂直 搜索 引擎 中 的 数据 挖掘 


徐 教授 : “相信 我 们 在 座 的 很 多 领导 ， 因 为 工作 需要 到 外 边 出 差 。 都 会 涉及 飞机 
票 /火车 票 以 及 酒店 的 预订 问题 。 这 个 飞机 票 /火车 票 以 及 酒店 的 预订 行为 在 互联 网 上 
的 实现 基础 就 是 垂直 搜索 。” 


“ 徐 教授 ， 搜 索 估 计 大 家 都 知道 百度 ， 您 说 的 垂直 搜索 我 是 第 一 次 听 说 ”， 黄 主 
任 说 出 了 自己 心中 的 疑惑 。 


只 见 马 处 长 站 起 来 说 : “这 个 我 知道 ， 垂 直 搜索 是 针对 某 一 个 具体 行业 的 专业 搜 
索引 擎 ， 它 是 对 搜索 引擎 的 细 分 和 延伸 ， 垂 直 搜索 的 特点 是 更 专 、 更 精 、 更 深 ， 且 具 
有 特定 行业 的 色彩 。” 


徐 教授 说 :“ 马 处 长 ， 你 说 的 很 对 ， 随 着 互联 网 信息 的 不 断 增长 ， 垂 直 搜索 引擎 
成 为 互联 网 用 户 必 不 可 少 的 助手 。 大 部 分 垂直 搜索 引擎 都 在 后 台 服 务 器 详细 记录 了 用 
户 搜索 的 完整 过 程 , 包括 用 户 的 瑟 地 址 、 搜 索 时 间 、 输 入 的 查询 词 、 点 击 的 URL 等 。 
通过 对 互联 网 用 户 使 用 搜索 引擎 的 行为 进行 分 析 ， 可 以 挖掘 用 户 的 搜索 规律 ， 揭 示 用 
户 的 搜索 意图 ， 一 方面 可 以 提高 搜索 质量 ,满足 用 户 的 需求 ， 另 一 方面 可 以 改善 和 提 
高 搜索 引擎 的 性 能 ， 提 高 搜索 引擎 的 知名 度 和 扩大 其 市 场 份额 。” 

“有 没有 用 户 使 用 覆盖 比较 广 、 品 牌 熟悉 度 高 的 垂直 搜索 引擎 ? ” 台 下 的 姚 局 长 
也 好 奇 地 问 道 。 

李 部 长 神气 地 说 : “说 起 垂直 搜索 引擎 ， 就 得 说 “去 哪儿 ”， 去 哪儿 从 事 旅游 垂 
直 搜 索 行 业 ， 为 消费 者 提供 国内 外 机 票 、 酒 店 、 火 车 票 和 旅游 度假 等 专业 搜索 服务 ， 
帮助 用 户 实时 获取 全 方位 旅游 产品 信息 。 就 我 所 知 ， 去 哪儿 旅游 网 可 以 搜索 超过 10 
万 家 酒店 、2000 家 专业 机 票 、 火 车 票 以 及 度假 产品 的 供应 商 网 站 。” 

徐 教授 说 : “以 酒店 搜索 为 例 ， 搜 索引 擎 将 酒店 资料 、 在 线 的 房间 价格 、 行 政 区 
划 和 定位 ， 以 及 用 户 评论 等 信息 综合 在 一 起 ， 并 通过 数据 挖掘 等 方法 ， 以 便 让 用 户 有 
更 好 的 酒店 查询 效率 和 感受 。” 


= 


徐 教授 说 : 使 用 搜索 引擎 面临 许多 
问题 ， 比 如 : 


张 处 长 说 : 


用 户 使 用 搜索 引擎 是 为 了 快 
速 找到 自己 需要 的 信息 ; 


用 户 不 能 面 对 无 限 的 搜索 结 | 


果 , 搜 索引 擎 提供 的 结果 必须 
是 很 收敛 的 ; 


很 多 情况 下 ,用 户 并 不 能 恰当 
的 描述 自己 需要 什么 ; 


即便 使 用 搜索 引擎 , 用户 也 经 
常 要 面 对 较 多 的 无 效 信息 , 需 
要 花费 很 多 时 间 和 精力 去 比 
较 、 去 重复 查找 结果 , 这 限制 
了 搜索 引擎 的 价值 。 
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Gunar.Com 
可 类 作 的 基 他 


“准确 定位 用 户 搜索 行为 确实 有 一 定 难度 ， 以 搜索 包子 为 例 ， 他 可 能 


想到 的 如 : 多 大 的 包子 好 包 、 怎 么 蒸 包 子 、 包 子 的 营养 、 纸 过 馅 包子 、 哪 买 的 包子 好 
吃 ， 其 实说 不 定 他 最 想 知 道 的 是 包子 到 底 能 不 能 喂 狗 ”。 


听 了 张 处 长 的 幽默 话语 ， 大 家 都 乐 成 一 片 。 


李 主任 继续 思考 说 :“ 面 对 这 类 问题 确实 比较 环 手 , 我 能 想到 的 解决 问题 的 途径 : 
从 查询 入 手 ， 搜 索引 擎 帮助 用 户 更 好 的 描述 自己 需要 什么 ， 例 如 各 种 查询 向 导 ,， 用 可 
视 化 的 选择 代替 语言 以 及 对 自然 语言 的 联想 。 利 用 扩散 思维 ， 比 较 用 户 找 合 子 ， 互联 


网 提供 方 党 、 
姚 局 长 作为 武侠 小 说 迷 ， 提 供 了 自己 的 见解 : 


圆 业 、 靠 背 、 无 靠背 、 三 腿 、 四 腿 伙 等 的 查询 向 导 。” 
“从 结果 入 手 ， 搜 索引 擎 从 潜在 的 


搜索 结果 中 ， 总 结 出 更 有 通用 性 、 更 可 能 产生 价值 的 结果 优先 提供 给 用 户 。 用 户 找 无 
功 秘籍 ， 互 联网 提供 英 花 宝典 、 降 龙 十 八 掌 、 佛 山 无 影 脚 、 小 李 飞 刀 等 。” 


= 


数据 控 所 


徐 教授 听 后 满意 的 点 头 道 : “垂直 搜索 引擎 通常 每 天 都 会 收 到 数 百 万 用 户 提交 的 
查询 词 ， 这 些 查 询 词 对 搜索 引擎 来 说 是 非常 有 价值 的 ,它们 可 以 帮助 搜索 引擎 进一步 
调整 其 检索 与 排序 算法 ， 从 而 给 用 户 返回 更 好 的 查询 结果 。 然 而 ， 由 于 查询 词 数 目的 
巨大 ， 搜 索引 擎 不 可 能 直接 利用 这 些 数据 ; 另 一 方面 ， 从 查询 词 本 身 来 说 ， 一 个 特定 
的 查询 词 是 很 随意 的 ， 无 法 清晰 地 表示 一 种 用 户 信息 需求 。 因 此 直接 利用 这 些 查询 词 
对 搜索 引擎 来 说 是 没有 太 大 意义 的 。 为 了 解决 这 一 问题 ,一 个 很 直观 的 方法 就 是 尝 i 


对 这 些 查 询 词 进行 聚 类 。 在 一 个 类 别 内 部 ,一 组 查询 词 作为 一 个 整体 代表 了 一 种 用 户 
信息 需求 或 者 是 用 户 兴趣 。” 

学 员 们 听 了 徐 教授 的 话 都 被 折服 了 , 原来 李 主任 和 姚 局 长 的 简单 想法 被 徐 教授 提 
升 到 了 智能 查询 的 高 度 。 
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徐 教授 接着 说 : “保证 用 户 能 搜索 到 自己 想 要 的 ， 同 时 还 要 保证 搜索 的 效率 。 以 
搜索 酒店 为 例 ,， 评估 酒店 的 查询 效率 有 两 方面 : 一 方面 用 户 消 耗 时 间 精 力 来 检查 酒店 
结果 名 单 是 成 本 ， 用 户 阅 读 感 兴趣 的 酒店 详情 或 预定 房间 ， 是 产生 价值 ; 另 一 方面 追 
求 低 成 本 、 高 价值 ， 优 化 衡量 用 户 查 询 效率 的 指标 一 一 结果 页 的 酒店 转化 率 。 此 外 ， 
单位 时 间 内 ， 酒 店 点 击 ( 或 预定 ) 次 数 /在 搜索 结果 中 的 展示 次 数 ， 即 转化 率 ， 也 是 
考察 的 一 个 指标 。 例 如 展示 50 次 ， 点 击 6 次 ， 则 转化 率 为 12%。” 


李 处 长 略微 有 点 激动 : “转化 率 我 听 过 ， 很 重要 。 那 怎么 提升 酒店 转化 率 呢 ? ” 
徐 教授 回应 道 : 提升 酒店 的 转化 率 有 以 下 几 个 方法 : 


a 显然， 所 有 符合 用 户 搜索 条 件 的 结果 中 ， 将 转化 率 较 高 的 那些 酒店 优先 呈现 
给 用 户 ， 是 个 提升 查询 效率 的 办 法 ; 

= ”统计 和 排名 酒店 的 转化 率 (在 终极 分 析 中 ， 一 切 知 识 都 是 历史 ; 在 抽象 的 意 
义 下 ,一切 都 是 科学 教学 ， 在 理性 的 基础 上 ， 所 有 的 判断 都 是 统计 学 )， 我 
们 考虑 如 下 因素 : 修正 展示 次 数 、 重 视 统计 精度 、 动 态 周期 更 新 ; 


a ”在 此 基础 上 ， 还 需 区 别 用 户 差异 ， 实 现 定向 推荐 酒店 。 


姚 局 长 一 脸 迷 茫 : “ 徐 教授 ， 这 些 名 词 都 比较 专业 ， 我 都 听 糊 涂 了 ， 修 正 展示 次 
数 ? 怎么 个 修正 法 儿 呢 ?” 


徐 教授 说 : “ 别 着 急 ， 听 我 解释 ,观察 用 户 在 搜索 结果 页 的 点 击 行为 我们 发 现 : 
酒店 在 搜索 结果 页 出 现 的 位 置 , 在 很 大 程度 上 影响 了 酒店 被 点 击 的 概率 。 位 于 结果 页 
第 一 位 的 酒店 的 点 击 数 最 多 ， 占 总 点 击 数 的 百 分 之 二 十 以 上 ,前 三 位 的 点 击 额度 占 百 
分 之 四 十 以 上 , 大 体 上 位 置 越 靠 后 其 点 击 的 数量 就 越 少 。 我们 来 看 一 下 对 “展示 次 数 ” 
的 修正 : 酒店 在 第 i 个 位 置 上 展示 了 一 次 ， 在 逻辑 上 ， 我 们 认为 此 酒店 被 展示 了 Ci 
次 ， 转 化 率 的 公式 修正 为 :此 酒店 的 被 点 击 次 数 /二 在 位 置 i 的 展示 次 数 *Ci) 。” 


5s 


徐 教授 接着 说 : “我 们 还 要 重视 统计 精度 ， 有 些 酒店 的 展示 次 数 很 少 ， 偶 尔 有 一 
两 个 人 点 击 ， 这 时 该 酒店 的 转化 率 会 非常 高 。 酒 店 A 展示 了 3 次 , 被 点 击 2 次 , 转化 
率 是 66%。 酒 店 B 展示 了 10000 次 ， 被 点 击 1000 次 ， 转 化 率 是 10%。 如 果 我 们 简单 
的 比较 66% 和 10% 这 两 个 数值 , 会 认为 用 户 更 喜欢 酒店 A， 但 事实 上 ， 这 样 的 做 法 忽 
视 了 酒店 转化 率 的 精度 。 如 果 将 酒店 的 转化 率 p 视 为 伯 努 利 实验 中 事件 发 生 的 概率 ， 
将 展示 的 次 数 n 视 为 实验 次 数 。 那 么 实验 的 方差 可 以 表示 为 


为 了 限制 方差 的 大 小 , 也 就 是 提高 统计 精度 ， 要 求 方差 与 均值 的 比值 满足 下 面 的 
条 件 ， 


其 中 pl 为 待 确定 的 参数 ， 取 值 范围 为 1，30]。 


通过 控制 置信 度 区 间 ， 我 们 可 以 有 效 地 控制 计算 结果 的 可 信 程 度 ， 使 得 在 适应 实 
际 应 用 与 性 能 要 求 的 条 件 下 ， 满 足 统计 的 精确 程度 。” 

大 家 没 想到 这 背后 有 这 么 多 学 问 ， 都 听 得 更 聚精会神 了 。 

徐 教授 说 : “现实 生活 中 ， 消 费 者 的 酒店 偏好 往往 会 随时 间 发 生变 化 。 造 成 这 些 
变化 的 因素 ， 有 些 是 可 以 预见 的 ， 如 随 季 节 的 周期 性 变化 或 大 型 活动 、 节 日 等 。 有 些 
因素 是 不 可 预见 的 ， 如 酒店 打折 促销 、 某 地 偶然 的 重大 事件 等 。 搜 索引 擎 必须 自动 监 
测 这 种 变化 ， 动 态 周 期 更 新 ， 及 时 做 出 调整 和 响应 。” 

李 部 长 说 : “这 个 好 办 ， 设 定 统计 周期 为 固定 时 间 周 期 , 例如 每 星期 作为 一 个 周 
期 ,这样 直观 。” 


张 行 长 表达 了 不 同 的 意见 : “ 嗯 ,这 么 做 容易 理解 ， 但 是 我 担心 使 用 这 种 方法 存 
在 局 限 性 。 对 于 有 众多 搜索 行为 的 特大 城市 ， 每 星期 作为 一 个 统计 周期 ， 可 能 频率 偏 
低 ， 不 能 反映 即时 变化 。” 
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姚 局 长 插 进来 说 : “是 啊 ， 对 于 鲜 有 人 访问 的 小 型 城市 ， 相 同 的 每 星期 作为 一 次 
统计 周期 可 能 没有 必要 ， 因 为 访问 量 可 能 只 有 上 百 次 的 搜索 和 点 击 , 采集 不 到 足够 的 
样本 。” 


大 家 都 陷入 了 思考 ， 那 该 怎么 去 平衡 呢 ? 


徐 教授 说 : “ 嗯 ， 大 家 想 的 都 很 周全 ， 改 进 后 的 办 法 ， 第 一 种 是 固定 访问 次 数 周 
期 。 例 如 某 城市 每 万 次 的 搜索 或 点 击 ， 作 为 一 次 统计 周期 。 这 种 方法 在 重要 城市 ， 因 
为 搜索 量 大 ， 满 足 一 次 统计 周期 条 件 的 时 间 相 对 较 短 ， 在 小 型 城市 ， 因 为 访问 量 较 小 ， 
满足 一 次 统计 周期 条 件 的 时 间 相对 较 长 。 如 果 在 小 型 城市 因为 举办 旅游 节 等 活动 ， 而 
吸引 到 大 量 的 搜索 , 这 种 方法 也 会 相应 缩短 一 次 统计 周期 的 时 间 , 从 而 实现 自动 调整 。” 


听 了 徐 教授 的 话 ， 黄 主任 意犹未尽 : “ 徐 教授 ， 那 还 有 其 他 什么 改进 方法 呢 ? ” 

徐 教授 说 : “另外 一 种 比较 经 典 的 方法 就 是 多 周期 加 权 统 计 ， 使 用 单 周期 的 转化 
率 统计 得 到 的 酒店 排名 ， 波 动 性 会 比较 大 。 一 方面 ， 我 们 期 望 这 种 波动 ， 它 反映 了 用 
户 喜 好 的 即时 变化 。 另 一 方面 ， 我 们 还 期 望 某 些 酒店 有 长 期 靠 前 的 排名 ， 它 反映 了 这 
些 酒 店 有 现实 中 的 竞争 优势 。 因 此 ， 我 们 采用 多 个 统计 周期 ， 使 用 转化 率 加 权 平 均 的 
最 终 计算 办 法 ， 越 近 的 周期 权重 越 大 ， 较 好 的 均衡 了 两 方面 的 考虑 。” 

李 部 长 问 道 : “ 徐 教授 ， 之 前 您 介绍 的 对 酒店 转化 率 的 统计 ， 所 依据 的 是 “用 户 
整体 ”的 行为 统计 ， 没 有 区 分 用 户 间 的 差异 。” 

徐 教授 赞许 地 点 了 点 头 。 而 下 学 员 们 陷入 了 思考 ， 怎 么 区 分 用 户 间 的 差异 性 ， 收 
集 每 个 用 户 对 每 家 酒店 的 喜好 显然 不 现实 。 


徐 教授 解释 道 : “我 们 可 以 对 用 户 群 体 间 的 差异 进行 分 析 ， 实 现 针 对 特定 用 户 的 
酒店 展示 或 推荐 。 利 用 聚 类 分 析 有 助 于 研究 搜索 引擎 中 的 用 户 行为 模式 ， 为 提高 搜索 
引擎 的 检索 效果 提供 支撑 。” 


黄 主 任 说 : “有 的 用 户 群 无 视 价格 ， 只 住 高 档 酒店 。” 
姚 局 长 说 : “有 的 用 户 群 价格 受 得 起 ， 卫 生 最 重要 。” 
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李 部 长 说 : “第 二 天 一 早 见 客户 ， 酒 店 交通 地 点 必须 好 。” 


张 行 长 说 : “也 有 手头 太 紧 了 ， 找 个 便宜 酒店 凑合 住 的 群体 。” 
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徐 教 授 说 : “大 家 都 说 的 很 好 ， 假 定 用 户 A 和 用 户 B， 他 们 拥有 相近 的 价值 取向 
和 思维 方式 ， 他 们 在 搜索 引擎 上 会 体现 成 类 似 的 操作 习惯 ， 关 注 同 样 的 酒店 要 素 。 上 
户 A 喜欢 的 酒店 i, 用 户 B 也 有 较 大 的 概率 会 喜欢 。 和 酒店 i 类 似 的 酒店 j, 也 可 能 被 
用户 A 和 B 喜欢 。” 


李 部 长 说 : “ 徐 教授 ， 我 刚 听 到 你 讲 相同 类 型 的 用 户 群 关注 同样 的 酒店 要 素 ， 不 
知道 这 个 要 素 都 指 的 是 什么 呢 ?” 
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徐 教授 解释 道 : 用 户 搜索 酒店 时 的 要 素 有 : 


a ”一 是 对 搜索 引擎 的 操作 习惯 (区 分 用 户 群 体 ) ， 在 使 用 介质 上 (PC 终端 、 
手机 等 ) ， 在 查询 时 间 上 〔 白 天、 晚间 ) 等 ， 在 登入 来 源 上 引擎 跳 转 、 直 
接 网 址 等 ) ， 在 搜索 的 来 源 词 上 旅游 、 酒 店 等 ); 


a ”二 是 筛选 酒店 时 的 要 素 倾向 性 (区 分 用 户 群 体 、 定 位 群体 喜好 )， 考虑 房型 、 
价格 、 设 施 、 服 务 、 周 边 交通 等 ; 


a ”三 是 用 户 点 击 或 预定 酒店 的 要 素 倾向 性 定位 群体 喜好 〉 。 


假设 这 些 要 素 的 集合 是 I， 那 么 表示 用 户 集合 U 对 各 要 素 的 倾向 性 ， 可 以 用 和 矩阵 
表示 。 


听 到 这 里 ， 学 员 们 心中 的 疑惑 逐渐 被 解 开 。 


徐 教授 接着 说 : “对 于 任何 酒店 i、j， 可 以 得 到 酒店 相似 度 的 公式 。 对 于 任何 酒 
店 , 都 可 以 得 到 个 近邻 ， 即 数据 挖 抉 里 面 的 K 近邻 分 类 算法 , 可 将 相似 度 高 的 酒店 
放 在 一 个 类 别 中 。 通 过 一 个 在 线 用 户 的 操作 习惯 、 关 注 要 素 ， 我们 即 可 预测 评估 这 个 
用 户 对 酒店 的 喜好 程度 。 这 样 ， 我 们 得 到 一 个 酒店 排名 ， 即 这 个 用 户 有 可 能 选中 的 酒 
店 。 将 这 个 酒店 排名 与 前 面 得 到 的 酒店 转化 率 的 排名 进行 混合 ， 即 为 我 们 提供 给 用 户 
的 最 终结 果 。” 


姚 局 长 感慨 道 : “难怪 酒店 排名 这 么 精准 ， 像 是 电脑 入 侵 我 脑袋 了 似 的 。” 


徐 教授 说 道 : “实践 是 检验 真理 的 唯一 标准 ， 将 用 户 随机 地 分 成 A、B 两 组 ， 使 
其 分 别 看 到 两 组 来 自 不 同 算法 的 结果 页 。 一 组 采用 随机 的 酒店 分 布 方式 展示 , 一 组 用 
前 面 介绍 的 推荐 方式 展示 ， 对 比 这 两 组 用 户 的 页 面 转化 率 〈 酒 店 点 击 或 预定 次 数 / 结 
果 页 次 数 ) 。 从 结果 上 看 ， 根 据 数据 挖掘 得 到 的 推荐 算法 要 明显 好 于 随机 算法 。” 


学 员 们 都 为 徐 教授 严谨 的 治学 态度 折服 。 
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徐 教授 顿 了 顿 ，“ 当 然 ，AB 测试 也 不 限于 对 比 算法 结果 ， 也 可 用 于 比较 算法 本 
身 的 参数 选择 ， 实 现 结果 页 最 好 的 展示 结果 。 综 上 所 述 ， 通 过 对 用 户 搜索 酒店 行为 和 
结果 进行 的 数据 挖 据 ， 我们 提高 了 用 户 使 用 搜索 引擎 寻找 酒店 的 效率 ， 为 用 户 带 来 更 
实际 、 更 快捷 的 旅行 便利 。 同 样 的 数学 方法 ， 也 使 用 在 我 们 其 他 的 业务 领域 如 机 票 、 
火车 票 、 度 假 、 旅 游 指南 ， 以 及 一 起 玩 社区 。” 


听 了 徐 教授 对 本 节 课 程 的 总 结 ， 学 员 们 都 感慨 万 千 ， 真 是 生活 处 处 皆 学 问 。 
9.3 面向 电子 商务 的 数据 挖掘 


徐 教授 : “首先 让 我 们 都 明确 一 个 概念 : 电子 商务 ， 是 指 在 互联 网 上 进行 的 商务 
活动 ， 广 义 上 不 仅 包括 通过 Internet 买卖 产品 和 提供 服务 ， 还 包括 企业 内 部 和 企业 间 
的 商务 活动 ， 不 仅 是 硬件 和 软件 的 结合 ， 更 是 把 买 家 、 卖 家 、 厂 家 和 合作 伙伴 在 互联 
网 上 利用 Intemet 技术 与 现 有 的 系统 结合 起 来 开展 的 业务 。” 


姚 局 长 说 :“ 咽 , 我 女儿 大 学 专业 就 是 电子 商务 , 所 以 我 对 电子 商务 知道 一 点 儿 。 
比如 淘宝 、 京 东 、 苏 宁 易 购 、 亚 马 逊 等 都 是 电子 商务 平台 ， 只 是 对 数据 挖 气 怎 么 在 上 
面 发 挥 作用 还 不 了 解 ” 
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徐 教授 : “面向 电子 商务 数据 挖掘 的 任务 主要 表现 在 客户 关系 管理 方面 。 由 于 互 
联网 的 存在 ， 电 子 商 务 使 企业 和 客户 之 间 的 交流 更 加 方便 、 频 繁 和 便捷 ， 因 此 ， 企 业 
更 多 的 需求 是 如 何 通过 电子 商务 的 数据 挖 气 掌 握 更 多 客户 的 信息 动态 , 以 使 改进 企业 
与 客户 交流 的 方式 和 提出 新 的 交流 内 容 等 。 在 留 住 老 客 户 的 同时 也 要 善于 挖掘 新 客 
户 ， 利 用 分 类 技术 可 以 在 电子 商务 网 站 上 找到 潜在 客户 ， 通 过 挖 据 Web 日 志 记录 ， 
先 对 已 经 存在 的 访问 者 进行 分 类 ， 然 后 从 它 的 分 类 可 以 找到 潜在 的 客户 。” 

李 部 长 : “ 徐 教授 ， 电 子 商务 网 站 本 身 是 通过 搜索 引擎 提供 网 上 交易 ， 拿 淘宝 来 
说 ,这 其 中 涉及 到 您 上 节 提 到 的 搜索 背后 的 技术 支撑 ， 此 外 ， 面 对 儿 亿 卖 家 和 买 家 的 
海量 信息 交互 ， 电 子 商务 的 数据 挖掘 必然 还 有 一 些 其 他 特点 。” 
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张 行 长 : “ 徐 教授 ， 根 据 之 前 的 学 习 ， 我 有 这 样 一 个 想法 ， 在 电子 商务 中 ， 客 户 
聚 类 应 该 也 是 一 个 重要 的 方面 。 比 如 针对 Web 进行 模式 分 析 ， 挖 掘 出 具有 相似 浏览 
模式 的 客户 。 然 后 ， 通 过 对 具有 相似 浏览 行为 的 客户 进行 分 组 ， 分 析 组 中 客户 的 共同 
特征 ， 帮 助 电子 商务 的 组 织 者 更 好 的 了 解 自己 的 客户 ， 向 客户 提供 更 适合 、 更 面向 客 
户 的 服务 。” 


徐 教授 : “是 的 ， 你 们 都 说 的 很 对 。 在 前 一 节 我 们 已 经 知道 ， 用 户 搜索 需求 的 分 
析 和 精确 表示 包含 很 多 内 容 。 通 过 Web 内 容 挖掘 ， 可 进行 电子 商务 海量 商品 的 信息 
采集 。 针 对 电子 商务 网 站 的 用 户 搜索 ， 第 一 需要 准确 地 把 握 用 户 搜索 query 分 析 ， 其 
次 根据 用 户 行为 投放 定向 广告 ， 比 如 我 们 可 以 在 优酷 页 面 上 看 见 淘宝 广告 投放 。 通 过 
Web 数据 挖 握 ， 电 子 商 务 的 经 营 者 可 以 得 到 可 靠 的 市 场 反馈 信息 ， 分析 顾 客 的 未 来 行 
为 ， 有 针对 性 的 进行 电子 商务 营销 活动 。 根 据 产品 的 访问 者 的 浏览 模式 来 决定 广告 的 
位 置 ， 增 强 广告 针对 性 ， 提 高 广告 的 投资 回报 率 ， 从 而 降低 运营 成 本 ， 提 高 企业 竞争 
力 。 另 外 一 个 特点 就 是 商品 的 推荐 系统 应 用 ， 比 如 淘宝 页 面 上 的 “推荐 同类 已 购买 产 
品 ”， 以 及 在 亚马逊 页 面 上 的 “可 能 感 兴趣 的 产品 ”等 。 进 一 步 地 ， 根 据 挖 掘 客户 活 
动 规律 ， 有 针对 性 的 在 电子 商务 平台 下 提供 个 性 化 的 服务 ， 比 如 针对 不 同 的 用 户 提供 
不 同 的 服务 策略 和 服务 内 容 的 服务 模式 ， 其 实质 就 是 以 用 户 需求 为 中 心 的 Web 服务 。 
它 通过 收集 和 分 析 用 户 信息 来 了 解 用 户 的 兴趣 和 行为 , 进而 实现 主动 推荐 服务 。 因 此 ， 
通过 网 络 提供 的 个 性 化 服务 可 以 有 效 地 解决 用 户 信息 过 载 和 信息 迷失 的 困境 , 还 可 以 
帮助 企业 建立 友好 的 客户 关系 。 因 为 电子 商务 本 身 是 一 个 信息 化 非常 完全 的 系统 ， 所 
积累 的 数据 通常 存储 在 电子 商务 系统 的 数据 库 中 ,这 些 数 据 库 一 般 是 分 布 式 的 ,而 用 
户主 要 是 从 网 络 上 获取 这 些 数据 , 因此 对 电子 商务 使 用 的 数据 挖掘 主要 是 分 布 式 数据 
挖 据 。” 
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您 可 能 喜欢 

TP-LINKTL-WR841N 30 三 堡 超 五 类 标准 联网 线 3 米 。” 地狱 火 人 FIRE-PAD) 黑色 鼠 。 罗技 (Logitech ) MK260 

0M 无 线路 由 器 ( 蓝 色 ) 标 热 ( 京东 专 供 ) 无 线 光电 键 忌 套 装 
回 半 15.00 可 于 11.00 Y] ¥ 108.00 


黄 主 任 : “ 徐 教授 ， 听 你 这 么 一 说 ， 我 对 数据 挖掘 在 电子 商务 中 的 应 用 有 了 很 大 


徐 教授 进一步 说 道 ; “通过 Web 使 用 模式 挖掘， 可 辅助 商 家 理解 用 户 行为 ， 从 
而 改进 站 点 结构 ， 调 整 销售 策略 ， 提 供 个 性 化 服务 。 今 天 我 们 重点 掌握 Web 使 用 模 
式 挖 据 。” 

彭 处 长 : “ 徐 教授 ， 推 荐 产品 应 用 是 不 是 也 用 到 了 Web 使 用 模式 挖掘 呢 ?” 

徐 教授 笑 着 说 : “是 的 ， 一 般 地 ， 面 向 电子 商务 的 Web 使 用 模式 挖掘 有 以 下 模 
式 可 被 发 现 ; 路 径 分 析 、 关 联 规则 挖掘。 首先 我 们 来 掌握 路 径 分 析 ， 路 径 分 析 可 以 用 
来 发 现 Web 站 点 中 最 经 常 被 访问 的 路 径 ， 从 而 可 以 调整 站 点 的 结构 。” 


马 处 长 : “有 个 例子 说 明 就 好 了 ， 我 是 碰见 网 站 之 类 的 分 析 就 林 。” 


李 部 长 调侃 道 : “ 别 居 ， 有 徐 教授 呢 ， 给 你 开 个 良 方 。” 


徐 教授 看 他 俩 打趣 ， 接 着 道 : “ 那 就 简单 地 举例 说 一 说 ， 比 如 观察 某 电 子 商 务 网 
站 的 路 径 分 析 ， 我 们 可 以 发 现 如 下 的 信息 : 


m ”除了 主页 ，70% 的 客户 是 从 /product/pagel 进入 网 站 的 ; 


mn ”60% 的 客户 是 从 /company/ 进 入 /company/pagel 的 , 但 是 他 们 很 少 从 /company/ 
进入 /company/page2 或 /company/ 进 入 /company/page3; 


= 85% 的 客户 经 过 4 级 链接 后 ， 就 会 离开 网 站 。” 
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李 部 长 见 马 处 长 神情 专注 ， 便 问 : “ 马 处 长 ， 看 出 来 这 几 条 链接 信息 背后 表达 的 
含义 了 吗 ? 给 大 伙 说 说 ”…… 

马 处 长 也 不 慌 ， 自 信 地 说 道 : 我 只 是 发 表 一 下 我 的 想法 ， 有 不 同意 见 希 望 大 家 批 
评 指正 。 针 对 徐 教授 说 的 三 条 信息 ， 我 们 分 别 来 解读 : 


a ”第 一 条 链接 信息 说 明 /product/pagel 对 于 用 户 来 书 最 有 用 ， 可 以 在 这 页 加 入 

重要 的 超 链接 或 者 网 站 目录 结构 。 

sm 第 二 条 链接 信息 说 明 /company/pagel 包括 很 多 有 用 的 信息 , 但 是 用 户 很 多 不 
是 直接 进入 该 页 面 ， 而 是 需要 通过 其 他 链接 进去 。 


a ”第 三 条 链接 信息 说 明 多 数 用 户 不 愿意 浏览 链接 超过 4 层 的 页 面 , 所 以 最 好 将 
重要 页 面 放 在 小 于 4 层 的 位 置 。 


听 完 马 处 长 的 话 ， 大 家 才 明 白 他 之 前 说 的 都 是 谦虚 话 ， 要 不 然 怎么 可 能 说 得 连 徐 
教授 都 不 停 点 头 表 定 呢 。 


人 徐 教授 : “我 们 再 来 看 看 关联 规则 在 Web 使 用 模式 挖掘 中 的 应 用 。 关 联 规则 主 
要 用 于 事务 数据 库 中 关联 知识 的 发 现 。 比 如 用 于 电子 商务 ， 可 以 挖掘 客户 购买 商品 的 
模式 : 

Ape (Xs 20 “ess ， 29” ) &income (X，“Sk…… ,10k” ) =>buys(X, 
“computer”),[support=2%,Confidence=80%] 表 示 所 有 用 户 中 有 2% 持 度 ， 年 龄 为 20 
至 29 岁 ， 月 收入 为 5000 至 10000， 且 购买 计算 机 。 这 个 年 龄 和 收入 组 的 用 户 购买 计 
算 机 的 可 能 性 为 80%。 电 商 企 业 挖 掘 出 某 些 比较 受 客户 欢迎 的 特征 产品 后 ， 可 能 增强 
此 类 产品 的 设计 和 生产 ， 以 便 将 他 们 精确 地 推销 地 合适 的 用 户 。” 


姚 局 长 : “ 徐 教授 ， 你 说 的 这 个 让 我 想起 了 购物 篮 分 析 ， 只 是 这 个 消费 行为 是 在 
互联 网 上 而 已 ， 对 吧 ? ” 


李 部 长 : “看 来 姚 局 长 已 经 领会 到 关联 规则 的 实质 了 ， 佩 服 。” 
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徐 教授 笑 道 : “ 嗯 ， 看 来 我 之 前 讲 的 大 家 都 掌握 了 。 除 了 购买 模式 的 挖掘 ， 关 联 
规则 还 可 以 寻找 出 被 频繁 访问 的 网 页 组 ， 帮 助 我 们 了 解 它 们 之 间 的 相互 关系 。40% 的 
客户 既 访问 了 /company/pagel ， 又 访问 了 /company/page2 ; 30% 的 客户 在 访问 过 
/company/special 后 ， 在 /company/pagel 中 购买 了 商品 。 这 样 在 进行 产品 推荐 过 程 中 ， 
我 们 可 以 将 加 大 这 些 页 面 的 广告 投入 等 费用 。 总 体 上 来 看 ， 电 子 商务 对 数据 结果 的 应 
用 通常 是 针对 电子 商务 系统 的 。” 


张 行 长 说 : “ 徐 教授 ， 是 不 是 可 以 这 么 理解 : 电子 商务 数据 挖掘 的 目的 是 提高 企 
业 竞争 力 , 但 是 电子 商务 领域 中 的 数据 挖掘 提高 企业 竞争 力 的 方式 通常 是 对 电子 商务 
系统 的 改进 。 比 如 给 客户 推出 个 性 化 页 面 ， 把 用 户 最 感 兴趣 的 信息 放 在 首页 ， 或 者 像 
你 上 面 说 的 例子 中 放 在 关联 性 比较 强 的 页 面 ， 从 而 更 能 吸引 用 户 。” 


徐 教授 : “是 的 ， 通 过 对 客户 的 行为 记录 和 反馈 情况 进行 挖掘， 为 站 点 设计 者 提 
供 改进 的 依据 ， 从 而 站 点 设计 者 可 以 进一步 优化 网 站 组 织 结构 来 提高 网 站 的 点 击 率 。 
利用 关联 规则 ， 针 对 不 同 客户 动态 调整 站 点 结构 ， 使 客户 访问 的 有 关联 的 文件 之 间 的 
链接 更 直接 ， 客 户 可 以 方便 地 访问 到 想 要 访问 的 页 面 ， 更 具有 便利 性 。 同 时 提高 站 点 
质量 ， 给 客户 留 下 好 印象 ， 增 加 下 次 访问 的 机 率 。 另 外 ， 对 网 站 上 各 种 数据 的 统计 分 
析 有 助 于 改进 系统 性 能 ， 增 强 系统 安全 性 ， 并 提供 决策 支持 。” 


黄 主 任 : “ 听 了 大 家 的 话 ， 我 觉得 很 有 启发 。 在 电子 商务 中 ， 虽 然 每 个 用 户 在 不 
同 的 时 期 会 有 不 同 的 访问 模式 ， 但 其 长 期 趋势 是 稳定 的 。 因 此 通过 分 析 一 定时 期 内 商 
务 站 点 上 的 用 户 的 访问 信息 ， 可 以 发 现 该 站 点 潜在 的 客户 群体 、 聚 类 客户 、 相 关 页 面 
等 ， 这 些 信息 对 于 电子 商务 网 站 来 说 是 非常 有 价值 的 。” 


李 部 长 附 议 道 : “对 商品 访问 情况 和 销售 情况 进行 挖掘 ， 企 业 能 够 获取 客户 的 访 
问 规律 ， 确 定 顾客 消费 的 生命 周期 ， 根 据 市 场 的 变化 ， 针 对 不 同 的 产品 制定 相应 的 营 
销 策 略 。” 

高 处 长 也 积极 发 言 : “电子 商务 跨越 了 时 间 、 空 间距 离 ， 客 户 可 以 自主 选择 销售 
商 。 而 销售 商 通过 挖掘 客户 访问 信息 ， 了 解 客户 的 浏览 行为 , 根据 客户 的 兴趣 与 需求 ， 
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向 客户 做 动态 地 页 面 推荐 和 提供 定制 化 的 产品 ， 提 高 客户 满意 度 ， 延 长 客户 驻 留 的 时 
间 ， 最 终 达到 留 住 客户 的 目的 。” 


徐 教授 : 通过 这 节 课 ， 我 们 可 以 概括 出 如 下 结论 。 整 体 而 言 ， 电 子 商 务 中 的 数据 
挖掘 具有 以 下 特性 : 
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资料 收集 容易 且 不 引信 注意 ， 所谓 凡 走 过 必 留 下 痕迹 ， 当 访客 进入 网 站 后 的 
一 切 浏览 行为 与 历程 都 是 可 以 立即 被 记录 的 


以 交互 式 个 人 化 服务 为 终极 目标 ， 除 了 应 不 同 访客 呈现 专属 设计 网 页 之 外 ， 
不 同 的 访客 也 会 有 不 同 的 服务 


可 整合 外 部 来 源 数据 让 分 析 功 能 发 挥 地 更 深 更 广 ， 除 了 logfile、cookies、 会 
员 填 表 数 据 、 在 线 调查 数据 、 在 线 交易 数据 等 由 网 络 直 接 取 得 的 资源 外 ， 结 
合 实体 世界 累积 时 间 更 久 、 范围 更 广 的 资源 ,将 使 分 析 的 结果 更 准确 也 更 深 
A 


电子 商务 数据 挖掘 特性 


" 资料 收集 容易 且 不 引 人 注 意 ， 且 当 用 户 进 入 网 站 后 ， 一 切 
浏览 行为 与 历程 立即 被 记录 
"以 交互 式 个 人 化 服务 为 终极 目标 ， 不 同 的 访客 将 会 有 不 同 


的 服务 


* 可 整合 外 部 来 源 数据 让 分 析 功 能 发 挥 的 更 深 更 广 ， 将 使 结 
果 分 析 更 准确 、 更 深入 。 


数据 挖 蚀 技术 及 其 应 用 


第 9 章 ”Web 数据 挖掘 


姚 局 长 : “ 徐 教授 ， 听 了 这 节 课 ， 受 益 匪 浅 。 那 未 来 电子 商务 的 数据 挖掘 方向 如 
何 呢 ? ” 

徐 教授 : “利用 数据 挖掘 技术 建立 更 深入 的 访客 数据 剖析 ， 并 赖 以 架构 精准 的 预 
测 模式 ， 以 期 呈现 真正 智能 型 个 人 化 的 网 络 服务 ， 是 互联 网 数据 挖掘 努力 的 方向 
提供 比 我 们 自己 更 懂 自 己 的 网 上 交易 服务 。” 


教室 里 学 员 人 心 振奋 , 都 在 便 慑 未 来 电子 商务 给 我 们 的 生活 带 来 的 便利 和 美好 前 


9.4 社交 网 络 中 的 数据 挖掘 
徐 教授 ，“ 随 着 Facebook 的 上 市 ， 社 交 网 络 再 次 成 为 人 们 关注 的 焦点 。 社 交 网 


络 ， 也 就 是 网 络 + 社交 的 意思 。 通 过 网 络 这 一 载体 把 人 们 连接 起 来 ， 从 而 形成 具有 某 

-特点 的 团体 。 与 传统 的 论坛 、 博 客 相 比 ， 社 交 网 络 是 虚拟 世界 与 现实 世界 的 桥梁 ， 
在 互联 网 上 将 现实 生活 中 人 与 人 之 间 的 关系 建立 起 来 ，Facebook、Twitter、LinkedIn 
分 别 代 表 三 种 不 同 的 社交 网 络 。 谁 主动 给 大 家 介绍 一 下 这 三 种 社交 网 络 所 代表 的 类 
型 ? ” 


李 部 长 当仁不让 :“Facebook 是 基于 朋友 之 
间 强 关系 的 社交 网 络 , 有 助 于 朋友 之 间 关 系 的 维 facebook 
系 和 改善 。Twitter 是 基于 单 向 关注 的 弱 关 系 的 
社交 网 络 , 这 样 的 网 络 有 利于 塑造 意见 领袖 和 消 
息 的 传播 ; 而 LinkedIn 是 面向 商务 人 士 的 职业 EUICCe 全 
社交 网 络 , 帮助 用 户 利用 社交 关系 进行 商务 交流 
以 及 求职 招聘 。” 


@ 
张 行 长 : “前 面 说 的 都 是 国外 的 ， 针 对 国内 Linked inj 


社交 网 络 表达 一 下 我 个 人 的 理解 ， 国 内 的 腾讯 
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QQ、 人 人 网 类 似 于 facebook 偏向 于 朋友 之 间 关 系 维护 ， 微 博 类 似 于 Twitter， 是 一 个 
基于 用 户 关系 的 信息 分 享 、 传 播 以 及 获取 平台 ， 用 户 可 以 通过 Web、WAP 以 及 各 种 
客户 端 组 建 个 人 社区 ， 以 140 字 左 右 的 文字 更 新 信息 ， 并 实现 即时 分 享 ， 猎 聘 网 类 似 
于 Linkedin 专注 于 高 端 招聘 领域 的 社交 关系 改善 。” 


徐 教授 : “大 家 的 认识 都 很 独到 ， 社 交 网 络 每 天 都 会 产生 大 量 的 用 户 数据 ， 并 且 
具有 空前 的 规模 性 和 群体 性 ， 吸 引 着 无 数 研究 者 从 无 序 的 数据 中 发 气 有 价值 的 信息 。 
这 就 像 概率 统计 中 经 常 举 的 “ 投 硬币 算 其 正 反 面 概率 ”的 例子 ， 从 几 次 的 投掷 结果 中 
很 难看 到 规律 ， 但 通过 几 万 次 的 大 量 投掷 实验 ， 便 很 容易 看 出 正 反面 的 出 现 次 数 几乎 
相等 的 规律 。 社 交 网 络 上 产生 了 大 量 的 规模 化 、 群 体 化 的 数据 ， 吸 引 了 包括 计算 机 科 
学 、 心 理学 、 社 会 学 、 新 闻 传 播 学 等 领域 专家 和 学 者 对 其 进行 研究 和 探索 ,希望 能 够 
借助 更 强 的 社交 网 络 的 分 析 和 处 理 能 力 发 现 更 多 人 类 尚未 探索 出 的 规律 。 首 先 我 们 来 
确认 一 点 : 为 什么 要 分 析 社 交 网 络 数据 ?” 


黄 主 任 : 我 觉得 从 三 个 方面 可 以 说 明 分 析 社 交 网 络 的 重要 性 。 

a ”用 户 量 在 这 ， 新 浪 微 博 、 腾 讯 微 博 、 人 人 、 腾 讯 朋 友 、QQ 空间 、 开 心 001 
等 这 几 个 大 平台 注册 用 户 加 起 来 比 中 国人 口 还 多 ; 

a ”用 户 停 留 时 间 在 这 ， 有 数据 显示 用 户 ，95% 的 社区 网 民 平 均 花 费 在 社区 的 时 
间 要 超过 一 个 小 时 ; 

a 最 关键 是 用 户 喜 怒 哀 乐 都 在 这 ， 因 为 用 户 现实 的 朋友 在 这 ,用 户 不 真实 的 朋 
友 也 在 这 ， 用 户 不 认识 但 关注 的 人 都 在 这 。 


总 之 社交 网 络 就 是 用 户 真实 生活 的 一 个 反映 , 或 者 说 真实 生活 在 社交 网 络 就 是 人 生活 
的 一 部 分 。 

徐 教授 点 头 肯 定 说 : 在 社交 网 络 中 ， 你 不 止 是 你 ， 你 是 数据 世界 的 一 部 分 。 或 者 
你 可 以 看 看 这 个 世界 上 正在 发 生 什么 ， 你 ， 就 是 数据 本 身 。 社 交 数 据 主要 包含 很 多 讯 
息 ， 比 如 : 
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用 户 社交 关系 链 : 6 度 - (世界 上 任意 2 个 人 只 需 6 个 人 就 能 建立 联系 )、250+ 
(每 一 个 人 背后 有 至 少 250 人 的 圈子 ) ; 

用 户 关注 内 容 / 人 : 你 为 什么 关注 李开复 , 而 不 关注 凤姐 ? 为 什么 关注 “ 空 ” 
姐 ， 而 不 关注 梁咏琪 ? 这 些 都 反映 出 个 性 喜好 ; 


用 户 在 网 络 呈 现 的 属性 : 属性 也 可 以 理解 为 角色 ， 每 个 用 户 存 在 多 种 角色 。 
这 个 属性 越 来 越 接近 于 人 本 身 ， 体 现在 关注 、 粉 丝 、 评 论 、 转 发 ， 标 签 等 。 


那 分 析 社 交 数 据 能 让 我 们 知道 什么 ? 


姚 局 长 : 我 个 人 的 一 点 想法 ， 对 于 企业 来 说 : 


第 一 可 以 找到 自己 的 客户 , 客户 主要 属于 哪个 社交 平台 、 有 什么 人 口 特征 ( 角 
色 模 型 ) 、 他 们 的 购买 倾向 及 使 用 倾向 


第 二 ， 获 得 品牌 和 客服 信息 ， 品 牌 与 情 分 析 走 势 ， 自 身 品牌 有 效 传播 者 〈 也 
许 是 凤姐 、 也 许可 能 是 互联 网 的 那 点 事 ) ， 


第 三 ， 知 悉 竞争 对 手 在 干什么 ， 竞 争 对 手 的 影响 策略 ， 如 果 你 哪里 做 不 好 ， 
竞争 对 手 会 告诉 你 。 


徐 教授 ， 就 是 不 知道 这 些 信息 怎么 分 析 获 得 了 。 


徐 教授 : 利用 计算 机 来 处 理 社交 网 络 往往 会 将 整个 社交 网 络 看 作 是 一 个 图 的 结 
构 ， 每 个 用 户 就 是 图 中 的 节点 ， 人 与 人 之 间 的 关系 就 是 节点 之 间 的 边 ， 根 据 不 同类 型 
的 社交 网 络 ， 所 构成 的 图 可 以 是 有 向 图 也 可 以 是 无 向 图 ,关系 的 强 弱 也 可 以 利用 边 上 
不 同 的 权重 来 体现 。 有 以 下 几 种 : 


一 是 关联 关键 字 跟踪 ， 在 微 博 不 断 跟踪 某 些 关 键 字 的 变化 ， 如 产品 名 、 品 牌 
〈 假 如 产品 名 称 老 跟 “ 烂 ”、“ 差 ”同时 出 现 ， 就 要 提高 警惕 了 ) ; 


二 是 查看 传播 路 径 、 引 爆 点 。 传 播 路 径 反 映 出 产品 和 品牌 的 渗透 力量 ， 引 爆 
点 反映 出 潜在 的 价值 传播 点 
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= ”三 是 从 批量 用 户 中 识别 产品 民间 代言 人 。 通 过 关键 字 、 频 率 识别 用 户 关注 度 
的 领域 /兴趣 ， 也 可 以 统计 用 户 所 有 粉丝 的 兴趣 分 布 以 及 影响 力 。 
我 认为 是 所 有 行业 , 特别 是 受 别人 行为 影响 比较 比较 明显 的 行业 , 如 电 商 、 科 技 产 品 、 
电子 产品 等 应 该 分 析 和 加 强 关 注 社 交 数 据 。 


彭 处 长 : “ 徐 教 授 ， 国 外 的 社交 网 络 数据 挖掘 研究 都 有 哪些 方面 呢 ? ” 


社交 网 络 的 数据 挖掘 


* 社交 圈子 的 识别 
* 影响 力 的 计算 


* 使 用 当前 数据 预测 未 来 。 


数据 挖掘 技术 及 其 应 用 


徐 教授 : 对 于 社交 网 络 的 分 析 和 研究 范围 很 广 ， 也 存在 着 许多 有 意思 的 研究 和 应 
用 课题 。 例 如 ， 在 社交 网 络 中 社区 圈子 的 识别 、 社 交 网 络 中 人 物 影 响 力 的 计算 、 基 于 
社交 网 络 信息 的 预测 等 。 

= ”第 一 ,社交 圈子 的 识别 。 社 交 网 络 最 核心 的 就 是 人 与 人 的 关系 ， 以 及 所 形成 
的 社交 圈子 , 然而 每 个 人 根据 自己 的 关系 不 同 及 兴趣 不 同 可 以 属于 多 个 社交 
圈子 。 在 算法 中 以 亲密 度 为 首要 指标 和 以 兴趣 为 首要 指标 ， 也 会 得 到 不 同 的 
社交 圈子 划分 。 
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= ”第 二 ， 影响 力 的 计算 : 在 社交 网 络 中 ， 意 见 领袖 因为 其 在 网 络 上 强大 的 影响 
力 会 对 信息 的 传播 , 以 及 普通 用 户 的 行为 造成 巨大 的 影响 。 与 现实 社会 一 样 ， 
社交 网 络 中 的 人 也 存在 不 同 的 阶级 和 不 同 的 影响 力 。 如何 评价 一 个 人 在 不 同 
领域 的 影响 力也 是 一 个 很 重要 的 问题 。 


有 学 者 提出 了 基于 主题 级 别 的 影响 力 评价 模型 来 尝试 解决 这 个 问题 , 该 算法 应 用 
在 大 规模 社交 网 络 数据 中 显现 出 了 较 好 的 效果 。 


姚 局 长 :“ 这 点 我 认同 , 对 于 每 个 人 来 说 , 其 在 不 同 领域 的 影响 力也 是 不 一 样 的 。 
例如 ， 李 开 复 的 影响 力主 要 在 科技 领域 ,黄健翔 的 影响 力 在 体育 领域 ， 薛 蛮 子 的 影响 
力主 要 在 投资 和 公益 的 领域 。” 


徐 教授 : 我 们 接着 说 。 
a ”第 三 ， 用 数据 预测 未 来 也 是 社交 网 络 的 一 个 重要 方向 。 


华尔街 的 多 家 对 冲 基 金 公 司 已 经 在 利用 twitter 数据 挖掘 来 衡量 人 们 的 情绪 , 发 现 
公众 的 情绪 数据 与 很 多 社会 现象 及 事件 具有 很 强 的 相关 性 ， 无 论 是 “希望 ”的 正面 情 
绪 ， 还 是 “害怕 ”的 负面 情绪 的 体现 都 预示 着 美国 股市 指数 的 下 跌 。 在 流行 病 预 测 方 
面 ， 英 国 的 科学 家 根据 Twitter 的 数据 来 跟踪 流感 的 爆发 。 他 们 主要 基于 用 户 发 布 信 
息 中 的 关键 词 ， 例 如 “我 头痛 ”等 ， 并 结合 用 户 的 发 布地 点 ， 按 区 域 与 英国 卫生 部 的 
官方 数据 进行 比较 ， 最 终 建 立 起 一 个 预测 模型 。 还 有 很 多 研究 者 也 利用 数据 挖掘 的 方 
法 对 电影 票房 、 美 国 大 选 的 趋势 和 结果 进行 预测 ， 并 取得 了 令 人 惊喜 的 成 果 。 


李 部 长 : “ 徐 教授 ， 通 过 社交 网 络 数据 的 预测 应 用 这 么 神奇 ， 听 着 好 像 无 所 不 能 
呢 。” 


徐 教授 : “我 们 对 于 利用 社交 网 络 数据 预测 能 力 的 态度 也 不 能 过 于 乐观 ， 因 为 社 
交 网 络 的 预测 是 基于 海量 数据 的 , 但 目前 对 于 海量 文本 数据 的 分 析 算 法 尚未 达到 理想 
的 准确 率 。 尤 其 对 于 “从 文本 信息 来 进行 情绪 判断 ”这 个 看 似 简单 的 问题 ， 其 本 质 是 
自然 语言 处 理 与 情绪 心理 学 的 交叉 问题 。 对 文本 情绪 的 判断 也 以 基于 词 库 及 语法 结构 
的 判断 和 基于 机 器 学 习 的 方法 为 主 。 然 而 这 些 方法 对 于 稍 显 复杂 的 、 尤 其 是 带 有 反讽 
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和 隐 含 意 的 语言 很 难 进行 有 效 判断 。 此 外 ， 对 于 社交 网 络 的 使 用 群体 不 能 完全 代表 有 
效 的 人 群 ， 因 为 使 用 社交 网 络 的 人 群 与 年 龄 、 地 域 、 种 族 等 方面 都 有 很 大 差异 ， 因 此 
仅 利用 社交 网 络 产生 的 数据 进行 预测 很 可 能 会 与 最 终结 果 产 生 偏差 , 所 以 从 人 和 群 角度 
进行 科学 有 效 的 取样 方法 对 于 社交 网 络 预测 也 是 尤为 重要 的 一 个 环节 。” 


马 处 长 :“ 徐 教授 , 能 给 我 们 大 家 举例 介绍 一 下 您 带领 的 团队 中 从 事 的 研究 吗 ? ” 


徐 教授 : 我 的 研究 团队 中 ， 有 一 个 小 组 针对 新 浪 微 博 的 短 链接 进行 了 初步 分 析 和 
研究 。 短 链接 ， 通 俗 来 说 ， 就 是 将 长 的 URL 网 址 ， 通 过 程序 计算 等 方式 ， 转 换 为 简 
短 的 网 址 字符 串 。 访 问 时 ， 只 要 将 原始 网 址 与 短 链 接 对 应 ， 做 映射 ， 就 可 以 实现 跳 转 
作用 。 各 个 Web 网 站 推出 自己 的 短 链接 无 疑 能 在 新 浪 微 博 等 实时 信息 平台 上 占据 更 
多 优势 : 


a ”一 是 提升 品牌 曝光 率 ， 让 用 户 一 眼 就 能 知道 链接 出 自 哪里 ; 


a ”二 是 控制 用 户 , 基于 上 一 点 ， 用户 同样 也 希望 让 好 友 知道 自己 分 享 的 东西 出 
自 哪里 ; 


a ”三 是 整合 并 提高 用 户 黏度 , 大 部 分 有 没有 短 链接 都 无 所 谓 的 服务 一 旦 提供 短 
链接 及 相应 的 配套 广播 功能 ， 就 会 很 轻而易举 的 留 住 用 户 ; 


a ”四 是 完善 自身 提高 可 信和 度 ， 提 供 短 链接 能 让 用 户 觉 得 该 网 站 更 可 靠 。 


李 部 长 : “参照 微 博 现在 火 的 程度 ， 必 定 是 很 多 企业 必 争 之 地 。 徐 教授 ， 赶 紧 给 
我 们 说 说 您 的 团队 是 怎么 分 析 的 呢 ? ” 


徐 教授 : 从 某 时 间 段 内 的 新 浪 微 博 数据 中 提取 所 有 短 链接 ， 同 时 利用 数据 挖掘 软 
件 工具 对 这 些 链 接 进行 了 简单 的 分 析 和 挖掘。 从 数据 导入 、 数 据 清 洗 、 数 据 变换 到 数 
据 分 析 ， 主 要 进行 新 浪 网 站 分 析 、 频 道 分 析 、 应 用 分 析 、 游 戏 分 析 、 团 购 网 站 分 析 、 
电子 商务 网 站 及 微 博 关 键 词 时 间 序列 分 析 、 最 受 欢迎 歌手 分 析 、 最 受 欢 迎 歌曲 分 析 的 
分 类 汇总 ， 计 算 频数 分 布 。 通 过 研究 发 现 微 博信 息 传播 网 呈现 小 世界 特征 : 平均 最 短 
路 径 很 少 接近 6， 这 与 “六 度 分 离 ” (世界 上 任意 2 个 人 只 需 6 个 人 就 能 建立 联系 ) 
理论 不 谋 而 合 , 发现 微 博信 息 传播 网 的 度 分 布 指数 符合 无 尺度 网 络 度 分 布 ， 指 数 介 于 
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2 和 3 这 一 特性 。 此 外 ， 我 们 另外 一 个 小 组 针对 社交 网 络 的 虚假 账号 和 用 户 也 进行 了 
初步 分 析 ， 对 虚假 用 户 的 判断 采用 了 以 下 8 种 用 户 行为 特征 : 


a 博 主 的 创建 时 间 的 一 致 性 7 
a ” 博 主 的 头像 和 名 字 
a ”关注 与 粉丝 比例 


a ” 博 主 的 粉丝 质量 


= ”发 布 微 博 数 量 
”最 近 200 次 转发 的 对 象 分 布 


a ”转发 同一 条 微 博 的 频率 
a ”转发 时 所 写 的 内 容 


针对 以 上 8 种 特征 ， 利 用 机 器 学 习 的 分 类 算法 训练 模型 ， 并 利用 模型 进行 后 续 虚 
假 用 户 的 预测 ， 可 以 有 效 地 发 现 虚假 用 户 ， 在 与 情 分 析 中 将 其 剔除 ， 还 原 出 真实 的 信 
息 传 播 情况 及 与 情 状 态 。 


张 行 长 : “ 听 着 这 内 容 就 估计 里 面 的 工作 量 很 大 呀 ! ” 


徐 教授 : “是 的 ， 我 们 对 社交 网 络 数据 的 认识 和 挖掘 还 处 于 相对 初级 的 阶段 ， 对 
这 种 大 规模 、 高 维度 数据 挖掘 还 在 不 断 地 演化 。 目 前 来 看 ， 文 本 语言 的 情感 分 析 、 社 
交 网 络 的 传播 预测 等 很 多 基础 性 问题 还 不 能 得 到 有 效 解决 , 对 深入 研究 社交 网 络 造成 
了 一 些 限 制 。 但 随 着 人 工 智能 研究 水 平 的 不 断 提 高 ， 尤 其 是 认 知 神经 科学 与 人 工 智能 
技术 相 结合 的 研究 ， 让 我 们 看 到 了 人 工 智能 的 新 希望 。 当 我 们 真正 有 能 力 解 决 这 些 问 
题 以 后 ， 社 交 网 络 将 会 成 为 帮助 我 们 预测 未 来 趋势 的 有 利 工 具 。 然 而 ， 充 分 使 用 社交 
网 络 数据 也 意味 着 暴露 用 户 越 来 越 多 的 隐私 ， 因 此 ， 如 何 能 够 在 用 户 隐私 和 数据 完整 
中 找到 一 个 平衡 点 ， 也 是 今后 数据 工作 者 所 要 面临 的 问题 。” 
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